論文の概要: Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants
- arxiv url: http://arxiv.org/abs/2508.16070v1
- Date: Fri, 22 Aug 2025 03:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.243052
- Title: Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants
- Title(参考訳): 少ない冗長性:歩行支援者における視覚言語モデルの実用性向上
- Authors: Chongyang Li, Yuan Zhiqiang, Jiapei Zhang, Ying Deng, Hanbo Bi, Zexi Jia, Xiaoyue Duan, Peixiang Luo, Jinchao Zhang,
- Abstract要約: 冗長性の少ない歩行支援モデルであるWalkVLM-LRを提案する。
GRPOベースの推論フレームワーク内に4つの人間推論に基づくカスタム報酬関数を導入し、出力を最適化する。
本手法は,他のモデルと比較して,すべての評価指標における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 15.609956194331405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approximately 283 million people worldwide live with visual impairments, motivating increasing research into leveraging Visual Language Models (VLMs) to develop effective walking assistance systems for blind and low vision individuals. However, existing VLMs in walking assistant task often have outputs that contain considerable redundancy and extraneous details, adversely affecting users' ability to accurately assess their surroundings. Moreover, these models typically lack the capability to proactively assess environmental risks and adaptively trigger reminders based on the appropriate scene, leading to excessive temporal redundancy. To mitigate output and temporal redundancy, we propose WalkVLM-LR, a walking assistance model with less redundancy. To reduce output redundancy, we introduce four human-preference-based custom reward functions within the GRPO-based reasoning framework to optimize the output in terms of conciseness, fluency, keyword density, and accuracy, thereby producing more informative and streamlined outputs. To minimize temporal redundancy, we incorporate an environment awareness discriminator, which shares the visual encoder with the VLMs to reduce redundant computations and enhance discriminative efficiency, to make WalkVLM-LR assess scene risk levels and minimize unnecessary reminders. Experimental results demonstrate that our method achieves state-of-the-art performance across all evaluation metrics compared with other models, particularly in output conciseness and less temporal redundancy.
- Abstract(参考訳): 世界中で約2億2300万人が視覚障害を抱えており、視覚言語モデル(VLM)を活用して視覚障害者や低視障害者に効果的な歩行支援システムを開発する研究の動機となっている。
しかしながら、歩行補助作業における既存のVLMは、かなりの冗長性と外部の詳細を含む出力を持ち、ユーザの環境を正確に評価する能力に悪影響を及ぼす。
さらに、これらのモデルには、環境リスクを積極的に評価し、適切な状況に基づいてリマインダーを適応的にトリガーする能力がないため、時間的冗長性が過剰になる。
出力と時間的冗長性を軽減するために,より冗長性の低い歩行支援モデルWalkVLM-LRを提案する。
出力冗長性を低減するため、GRPOベースの推論フレームワーク内に4つの人為的推論に基づくカスタム報酬関数を導入し、簡潔さ、フラレンシ、キーワード密度、精度で出力を最適化し、より情報的で合理化された出力を生成する。
時間的冗長性を最小化するために,視覚的エンコーダをVLMと共有する環境認識識別器を組み込んで冗長計算の削減と識別効率の向上を実現し,WalkVLM-LRがシーンリスクレベルを評価し,不必要なリマインダを最小化する。
実験結果から, 提案手法は, 他のモデル, 特に出力の簡潔さや時間的冗長性の低いモデルと比較して, 全ての評価指標の最先端性を実現していることが示された。
関連論文リスト
- Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Reliable Annotations with Less Effort: Evaluating LLM-Human Collaboration in Search Clarifications [21.698669254520475]
本研究は,高品質な多次元データセットを活用した探索明確化作業のためのアノテーションに焦点を当てた。
最新のモデルでさえ、主観的またはきめ細かい評価タスクにおいて、人間レベルのパフォーマンスを再現するのに苦労していることを示す。
本稿では,信頼しきい値とモデル間不一致を利用して人間レビューを選択的に含む,シンプルで効果的なHuman-in-the-loop(HITL)ワークフローを提案する。
論文 参考訳(メタデータ) (2025-07-01T08:04:58Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks [12.313257689227013]
本稿では,機能プルーニングと低信頼プルーテーションを統合した新しい手法であるSelective Feature Imputation for Debiasing(SFID)を紹介する。
SFIDは多用途であり、出力のセマンティックな整合性を維持し、再訓練の必要性をなくすことで費用対効果を発揮できる。
実験の結果,ゼロショット分類,テキスト・ツー・イメージ検索,画像キャプション,テキスト・ツー・イメージ生成など,様々なVLMタスクにおけるSFIDの有効性が示された。
論文 参考訳(メタデータ) (2024-10-10T03:57:48Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。