論文の概要: ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance
- arxiv url: http://arxiv.org/abs/2601.16667v1
- Date: Fri, 23 Jan 2026 11:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.664687
- Title: ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance
- Title(参考訳): ReViP:視覚-言語-行動モデルにおける視覚-素性再バランスによる偽補完の低減
- Authors: Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Wei-Shi Zheng,
- Abstract要約: 本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
- 参考スコア(独自算出の注目度): 50.05984919728878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have advanced robotic manipulation by combining vision, language, and proprioception to predict actions. However, previous methods fuse proprioceptive signals directly with VLM-encoded vision-language features, resulting in state-dominant bias and false completions despite visible execution failures. We attribute this to modality imbalance, where policies over-rely on internal state while underusing visual evidence. To address this, we present ReViP, a novel VLA framework with Vision-Proprioception Rebalance to enhance visual grounding and robustness under perturbations. The key insight is to introduce auxiliary task-aware environment priors to adaptively modulate the coupling between semantic perception and proprioceptive dynamics. Specifically, we use an external VLM as a task-stage observer to extract real-time task-centric visual cues from visual observations, which drive a Vision-Proprioception Feature-wise Linear Modulation to enhance environmental awareness and reduce state-driven errors. Moreover, to evaluate false completion, we propose the first False-Completion Benchmark Suite built on LIBERO with controlled settings such as Object-Drop. Extensive experiments show that ReViP effectively reduces false-completion rates and improves success rates over strong VLA baselines on our suite, with gains extending to LIBERO, RoboTwin 2.0, and real-world evaluations.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、視覚、言語、プロプレセプションを組み合わせて行動を予測することで、高度なロボット操作を行う。
しかし、従来の方法では、VLMで符号化された視覚言語の特徴と直接的にプロプリセプティブ信号を融合し、実行障害が目に見えるにもかかわらず、状態優先のバイアスと偽の完了をもたらす。
我々はこれをモダリティの不均衡によるものとみなし、内部状態を過度に規制し、視覚的証拠を根拠にしている。
そこで我々は、視覚的接地と摂動下での頑健性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
鍵となる洞察は、セマンティック・インセプティヴ・インセプティヴ・ダイナミクスとセマンティック・インセプティヴ・インセプティヴ・ダイナミクスの結合を適応的に調節するために、タスク・アウェア環境を前もって導入することである。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的観察からリアルタイムタスク中心の視覚的手がかりを抽出し、ビジョン・プロプライオセプション特徴量線形変調を駆動し、環境意識を高め、状態駆動型エラーを低減する。
さらに,False-Completion Benchmark Suite を LIBERO 上に構築し,Object-Drop などの制御された設定を記述した最初のFalse-Completion Benchmark Suite を提案する。
大規模な実験により、ReViPは偽補完率を効果的に低減し、我々のスイート上の強力なVLAベースラインよりも成功率を向上し、LIBERO、RoboTwin 2.0、および実世界の評価にまで拡張した。
関連論文リスト
- Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization [42.41263928527529]
VLA(Vision-Language-Action)モデルは、伝達可能な世界知識と視覚言語基盤を持つエージェントを支援できる。
しかし、これらのVLMがアクションモダリティに適合している場合、元の視覚的表現や知識がどの程度保存されているかははっきりしない。
本稿では,VLA微調整中の表現保持の系統的研究を行い,行動微調整が視覚的表現の劣化につながることを示す。
論文 参考訳(メタデータ) (2025-10-29T15:20:10Z) - ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model [61.29164681694533]
ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。
Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
論文 参考訳(メタデータ) (2025-10-28T10:42:57Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Vision-Language Models [34.60772103760521]
視覚言語モデル(VLM)を用いた身体的視覚追跡(EVT)を強化する新しいフレームワークを提案する。
この研究は、EVTエージェントのアクティブ障害回復を支援するVLMベースの推論の最初の統合である。
論文 参考訳(メタデータ) (2025-05-27T04:53:50Z) - Seeing It or Not? Interpretable Vision-aware Latent Steering to Mitigate Object Hallucinations [11.474045796965056]
LVLM(Large Vision-Language Models)は目覚ましい成功を収めているが、物体幻覚(OH)との闘いは続いている。
本稿では,LVLMにおけるOHに対処する解釈的緩和戦略を採用した視覚対応遅延ステアリングフレームワークであるVaseを提案する。
論文 参考訳(メタデータ) (2025-05-23T12:29:00Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。