論文の概要: Recursive Belief Vision Language Model
- arxiv url: http://arxiv.org/abs/2602.20659v1
- Date: Tue, 24 Feb 2026 08:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.665613
- Title: Recursive Belief Vision Language Model
- Title(参考訳): 再帰的信念視覚言語モデル
- Authors: Vaidehi Bagaria, Bijo Sebastian, Nirav Patel,
- Abstract要約: 現在の視覚-言語-アクション(VLA)モデルは、部分的な可観測性の下での長い水平操作に苦慮している。
現在のアプローチは、短いコンテキストウィンドウや繰り返しクエリを視覚言語モデルに頼りながら、観察駆動のままである。
本稿では,自己教師型世界モデルで学習した信念中心アーキテクチャであるRB-VLAを紹介する。
- 参考スコア(独自算出の注目度): 0.866627581195388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current vision-language-action (VLA) models struggle with long-horizon manipulation under partial observability. Most existing approaches remain observation-driven, relying on short context windows or repeated queries to vision-language models (VLMs). This leads to loss of task progress, action repetition under perceptual aliasing, and high inference latency. Semantic reasoning alone is not the primary bottleneck in long-horizon manipulation. Instead, VLAs lack persistent, action-conditioned state representations and exhibit limited temporal and physical reasoning, making them ill-suited for multi-stage control. This paper introduces RB-VLA, a belief-centric architecture trained with self-supervised world-model objectives that maintains a compact latent state encoding task-relevant history, dynamics, and object interactions. Queried once for high-level intent, the VLM provides task specification, while the belief tracks task progress and enables phase-aware, causally grounded control under partial observability without storing raw observations or scaling memory with time. The belief and intent jointly condition a diffusion policy for robust closed-loop execution. RB-VLA outperforms prior VLAs on long-horizon benchmarks, achieving 52.5% and 37.5% higher success on multi-stage pick-and-place and stacking tasks, respectively, compared to π0. It also reduces inference latency by up to 5x relative to baselines and eliminates memory growth across timesteps observed in existing VLAs. Ablations show that the belief module is the primary driver of performance, increasing success rates from 32.5% to 77.5%. These results demonstrate the effectiveness of belief-based state representations for long-horizon VLA policies.
- Abstract(参考訳): 現在の視覚-言語-アクション(VLA)モデルは、部分的な可観測性の下での長い水平操作に苦慮している。
既存のアプローチの多くは観察駆動であり、短いコンテキストウィンドウや視覚言語モデル(VLM)への繰り返しクエリに依存している。
これにより、タスクの進捗が失われ、知覚的エイリアスの下でのアクションを繰り返し、高い推論遅延が発生する。
意味的推論だけでは、長期的な操作において主要なボトルネックではない。
代わりにVLAには永続的で動作条件のある状態表現がなく、時間的および物理的推論に制限があり、多段階制御には不適である。
本稿では,タスク関連履歴,ダイナミクス,オブジェクトインタラクションを符号化するコンパクトな潜在状態を維持する,自己教師型世界モデル目標をトレーニングした信念中心アーキテクチャであるRB-VLAを紹介する。
VLMはタスク仕様を提供する一方で、信念はタスクの進捗を追跡し、生の観測を保存したり、時間とともにメモリをスケーリングしたりすることなく、部分的に可観測性の下で位相認識、因果的な制御を可能にする。
信念と意図は、堅牢な閉ループ実行のための拡散ポリシーを共同で条件付ける。
RB-VLAはロングホライゾンのベンチマークでVLAよりも優れており、マルチステージのピック・アンド・プレース・タスクでは52.5%と37.5%が成功している。
また、ベースラインと比較して推論遅延を最大5倍に減らし、既存のVLAで観測されたタイムステップ間でのメモリ増加を削減する。
アブレーションは、信仰モジュールがパフォーマンスの主要な要因であり、成功率を32.5%から77.5%に引き上げていることを示している。
これらの結果は,長期VLA政策における信念に基づく状態表現の有効性を示す。
関連論文リスト
- Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文 参考訳(メタデータ) (2026-02-04T12:04:02Z) - Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement [27.517125673741486]
VLA(Vision-Language-Action)モデルは、汎用的なロボット制御のための有望なパラダイムとして登場した。
マルチレベル静的および動的トークンに視覚入力をアンタングルするフレームワークであるSD-VLAを提案する。
本稿では,VLAの長期時間依存性モデリング機能をより効果的に評価する新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-03T20:17:47Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Value Vision-Language-Action Planning & Search [1.631000263754549]
VLA(Vision-Language-Action)モデルは、ロボット操作のための強力なジェネラリストポリシーとして登場した。
本稿では,モンテカルロ木探索を軽量で学習可能な値関数で拡張するフレームワークであるValue Vision-Language-Action Planning and Search(V-VLAPS)を紹介する。
LIBEROロボット操作スイート上でのV-VLAPSを評価し、価値誘導探索が成功率を5%以上向上することを示した。
論文 参考訳(メタデータ) (2026-01-02T19:40:34Z) - EvoVLA: Self-Evolving Vision-Language-Action Model [11.746804244345613]
VLA(Vision-Language-Action)モデルでは、長い水平ロボット操作が依然として難しい。
本稿では,3つの相補的コンポーネントを通じてこの問題に対処する自己教師型VLAフレームワークであるEvoVLAを紹介する。
EvoVLAはサンプル効率を1対半改善し、ステージ幻覚を38.5%から14.8%に下げる。
論文 参考訳(メタデータ) (2025-11-20T09:08:33Z) - ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context [54.58057019521198]
時間的コンテキストを活用することは、部分的に観察可能なロボットタスクの成功に不可欠である。
動作のクローン化に関する以前の研究は、複数フレームの観測で不整合のパフォーマンス向上を示した。
マルチフレーム観測を効果的に活用することにより、ロボットタスクのパフォーマンスを堅牢に向上するポリシーモデルであるContextVLAを紹介する。
論文 参考訳(メタデータ) (2025-10-05T15:29:57Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。