論文の概要: EvoScene-VLA: Evolving Scene Beliefs Inside the Action Decoder for Chunked Robot Control
- arxiv url: http://arxiv.org/abs/2605.21862v1
- Date: Thu, 21 May 2026 01:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.048741
- Title: EvoScene-VLA: Evolving Scene Beliefs Inside the Action Decoder for Chunked Robot Control
- Title(参考訳): EvoScene-VLA: チャンクロボット制御のためのアクションデコーダ内におけるシーン信念の進化
- Authors: Chushan Zhang, Ruihan Lu, Jinguang Tong, Xuesong Li, Yikai Wang, Hongdong Li,
- Abstract要約: チャンクされた視覚言語アクション(VLA)ポリシーは、現在の視覚観察のみに各更新を条件付け、マルチステップロボット制御を予測する。
EvoScene-VLAを導入するために,制御コール間の永続的なアクション更新シーン状態について論じる。
31のRoboTwinタスクでは、EvoScene-VLAは、固定評価で87.2%から89.1%、ランダム評価で86.1%から88.5%に平均的な成功を上げた。
- 参考スコア(独自算出の注目度): 44.33368130694432
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Chunked vision-language-action (VLA) policies predict multi-step robot controls, conditioning each update on the current visual observation alone. Yet robot actions cause contact, occlusion, and object motion, and the geometry that later decisions depend on can change before the next visual update arrives. Spatial VLAs improve current-frame geometry. Temporal VLAs aggregate past frames. Neither maintains an action-updated scene prior across chunks. We argue for a persistent action-updated scene state across control calls, and introduce EvoScene-VLA. Its recurrent scene prefix carries a geometry-aware scene state across chunks. At each vision-language model (VLM) call, the VLM combines scene information from the current observation with the action-updated prior from the previous chunk; the action decoder outputs both the next action chunk and a compact scene update. This update becomes the next prior, which the VLM corrects against the new observation when the next call arrives. Each control call therefore starts from a scene prior that reflects both recent actions and fresh visual evidence. During training, \textbf{Scene Predictor} supplies future scene-token targets, and Geometric Anchor aligns scene slots with frozen depth and 3D teachers. We discard both modules at deployment. On 31 RoboTwin tasks, EvoScene-VLA raises average success from 87.2% to 89.1% in fixed evaluation and from 86.1% to 88.5% in randomized evaluation. On the Galaxea R1-Lite real robot, EvoScene-VLA outperforms all baselines.
- Abstract(参考訳): チャンクされた視覚言語アクション(VLA)ポリシーは、現在の視覚観察のみに各更新を条件付け、マルチステップロボット制御を予測する。
しかし、ロボットの動作は接触、閉塞、物体の動きを引き起こすため、次の視覚的アップデートが到着する前に、後の決定に依存する幾何学が変わる可能性がある。
空間VLAは現在のフレーム形状を改善する。
時間VLAは過去のフレームを集約します。
チャンクをまたいだアクション更新シーンも維持できない。
EvoScene-VLAを導入するために,制御コール間の永続的なアクション更新シーン状態について論じる。
繰り返し発生するシーンプレフィックスは、チャンクにまたがって幾何学的に認識されたシーン状態を保持する。
各視覚言語モデル(VLM)コールにおいて、VLMは、現在の観察からのシーン情報と前のチャンクからのアクション更新前のアクション情報とを結合し、アクションデコーダは次のアクションチャンクとコンパクトなシーン更新の両方を出力する。
この更新は次の前のものとなり、VLMは次の呼び出しが到着したときに新しい観察に対して修正する。
したがって、各コントロールコールは、最近のアクションと新鮮な視覚的証拠の両方を反映する前のシーンから始まる。
トレーニング中、 \textbf{Scene Predictor} は将来のシーントーケンターゲットを提供し、Geometric Anchor はシーンスロットを凍結深度と3D教師で調整する。
デプロイ時に両方のモジュールを破棄します。
31のRoboTwinタスクでは、EvoScene-VLAは、固定評価で87.2%から89.1%、ランダム評価で86.1%から88.5%に平均的な成功を上げた。
Galaxea R1-Liteの本物のロボットでは、EvoScene-VLAはすべてのベースラインを上回ります。
関連論文リスト
- Text-Guided 6D Object Pose Rearrangement via Closed-Loop VLM Agents [52.53348718474685]
VLM(Vision-Language Models)は、強力な視覚的推論能力を持つが、3D理解に苦慮している。
この閉ループプロセスに不可欠な3つの推論時間手法を導入する。
本手法は,対象物体のテキスト誘導目標6Dポーズの予測において,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2026-04-10T18:06:02Z) - ViVa: A Video-Generative Value Model for Robot Reinforcement Learning [44.25872641897863]
視覚言語アクション(VLA)モデルは、大規模な事前訓練を通じて高度なロボット操作を行うが、部分的な観測可能性と遅延したフィードバックのため、現実の展開は困難なままである。
本稿では、事前学習したビデオ生成器を付加して値推定を行うビデオ生成値モデルViVaを提案する。
論文 参考訳(メタデータ) (2026-04-09T12:28:14Z) - ViPRA: Video Prediction for Robot Actions [33.310474967770894]
我々は、アクションレスビデオから連続ロボット制御を学ぶためのフレームワークViPRA(Video Prediction for Robot Actions)を提案する。
アクションを直接予測する代わりに、将来の視覚的観察と動き中心の潜伏行動の両方を予測するためにビデオ言語モデルを訓練する。
下流制御では,潜時動作をロボット固有の連続動作シーケンスにマッピングするチャンクフローマッチングデコーダを導入する。
論文 参考訳(メタデータ) (2025-11-11T01:33:03Z) - Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models [8.452688845632995]
我々は,視覚・言語・アクション(VLA)モデルのためのオブジェクト・エージェント中心のトークン化であるOat-VLAを提案する。
Oat-VLAは、パフォーマンスを犠牲にすることなく、視覚トークンの数をわずかに減らすことができる。
我々は,Oat-VLA が LIBERO スイート上で OpenVLA の少なくとも2倍の速度で収束していることを明らかにする。
論文 参考訳(メタデータ) (2025-09-28T05:42:53Z) - OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。