論文の概要: Recursive Belief Vision Language Action Models
- arxiv url: http://arxiv.org/abs/2602.20659v2
- Date: Wed, 25 Feb 2026 17:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 16:16:21.291459
- Title: Recursive Belief Vision Language Action Models
- Title(参考訳): 再帰的視覚言語行動モデル
- Authors: Vaidehi Bagaria, Bijo Sebastian, Nirav Kumar Patel,
- Abstract要約: ロングホライゾン操作には永続的でアクション条件のある状態表現が必要である。
現在の視覚言語モデルは時間的および物理的推論に制限がある。
本稿では,自己教師型世界モデルで学習した信念中心アーキテクチャであるRB-VLAを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action models must enable agents to execute long-horizon tasks under partial observability. However, most existing approaches remain observation-driven, relying on short context windows or repeated queries to vision-language models (VLMs). This leads to loss of task progress, action repetition under perceptual aliasing, and high inference latency. While semantic grounding is important, long-horizon manipulation fundamentally requires persistent, action-conditioned state representations. Current VLAs lack such representations and exhibit limited temporal and physical reasoning, making them ill-suited for multi-stage control. This paper introduces RB-VLA, a belief-centric architecture trained with self-supervised world-model objectives that maintains a compact latent state encoding task-relevant history, dynamics, and object interactions. Queried once per task, the VLM provides high-level intent, while the belief tracks task progress and enables phase-aware, causally grounded control under partial observability without storing raw observations or scaling memory with time. The belief and intent jointly condition a diffusion policy for robust closed-loop execution. RB-VLA outperforms prior VLAs on long-horizon benchmarks, achieving 52.5 percent and 37.5 percent higher success rates on multi-stage pick-and-place and stacking tasks, respectively, compared to pi_0. It also reduces inference latency by up to five times relative to baselines and eliminates memory growth across timesteps observed in existing VLAs. Ablations show the belief module is the primary driver of performance, increasing success rates from 32.5 percent without belief to 77.5 percent with belief.
- Abstract(参考訳): 視覚言語アクションモデルは、エージェントが部分的な可観測性の下で長い水平タスクを実行できるようにする必要がある。
しかし、既存のアプローチのほとんどは観察駆動であり、短いコンテキストウィンドウや繰り返しクエリを視覚言語モデル(VLM)に依存している。
これにより、タスクの進捗が失われ、知覚的エイリアスの下でのアクションを繰り返し、高い推論遅延が発生する。
セマンティックグラウンドは重要であるが、ロングホライズン操作は基本的に永続的で動作条件のある状態表現を必要とする。
現在のVLAにはそのような表現がなく、時間的および物理的推論が限られており、多段階制御には適していない。
本稿では,タスク関連履歴,ダイナミクス,オブジェクトインタラクションを符号化するコンパクトな潜在状態を維持する,自己教師型世界モデル目標をトレーニングした信念中心アーキテクチャであるRB-VLAを紹介する。
タスク1回に1回問い合わせると、VLMは高いレベルのインテントを提供する一方で、信念はタスクの進捗を追跡し、生の観測を保存したり、時間とともにメモリをスケーリングしたりすることなく、部分的に可観測性の下で位相認識、因果的な制御を可能にする。
信念と意図は、堅牢な閉ループ実行のための拡散ポリシーを共同で条件付ける。
RB-VLAは長期のベンチマークでVLAよりもパフォーマンスが優れており、pi_0と比較して、マルチステージのピック・アンド・プレースとスタックングのタスクで52.5パーセントと37.5パーセント高い。
また、ベースラインに対する推論遅延を最大5倍削減し、既存のVLAで観測されたタイムステップ間でのメモリ増加を削減する。
アブレーションは、信念モジュールがパフォーマンスの原動力であり、信念なしで成功率を32.5パーセントから信念で77.5パーセントに引き上げていることを示している。
関連論文リスト
- Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文 参考訳(メタデータ) (2026-02-04T12:04:02Z) - Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement [27.517125673741486]
VLA(Vision-Language-Action)モデルは、汎用的なロボット制御のための有望なパラダイムとして登場した。
マルチレベル静的および動的トークンに視覚入力をアンタングルするフレームワークであるSD-VLAを提案する。
本稿では,VLAの長期時間依存性モデリング機能をより効果的に評価する新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-03T20:17:47Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Value Vision-Language-Action Planning & Search [1.631000263754549]
VLA(Vision-Language-Action)モデルは、ロボット操作のための強力なジェネラリストポリシーとして登場した。
本稿では,モンテカルロ木探索を軽量で学習可能な値関数で拡張するフレームワークであるValue Vision-Language-Action Planning and Search(V-VLAPS)を紹介する。
LIBEROロボット操作スイート上でのV-VLAPSを評価し、価値誘導探索が成功率を5%以上向上することを示した。
論文 参考訳(メタデータ) (2026-01-02T19:40:34Z) - EvoVLA: Self-Evolving Vision-Language-Action Model [11.746804244345613]
VLA(Vision-Language-Action)モデルでは、長い水平ロボット操作が依然として難しい。
本稿では,3つの相補的コンポーネントを通じてこの問題に対処する自己教師型VLAフレームワークであるEvoVLAを紹介する。
EvoVLAはサンプル効率を1対半改善し、ステージ幻覚を38.5%から14.8%に下げる。
論文 参考訳(メタデータ) (2025-11-20T09:08:33Z) - ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context [54.58057019521198]
時間的コンテキストを活用することは、部分的に観察可能なロボットタスクの成功に不可欠である。
動作のクローン化に関する以前の研究は、複数フレームの観測で不整合のパフォーマンス向上を示した。
マルチフレーム観測を効果的に活用することにより、ロボットタスクのパフォーマンスを堅牢に向上するポリシーモデルであるContextVLAを紹介する。
論文 参考訳(メタデータ) (2025-10-05T15:29:57Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。