論文の概要: HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2512.09928v1
- Date: Wed, 10 Dec 2025 18:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.268064
- Title: HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models
- Title(参考訳): HiF-VLA:視覚・言語行動モデルのための動き表現による視線・視線・視線
- Authors: Minghui Lin, Pengxiang Ding, Shu Wang, Zifeng Zhuang, Yang Liu, Xinyang Tong, Wenxuan Song, Shangke Lyu, Siteng Huang, Donglin Wang,
- Abstract要約: HiF-VLAは、双方向の時間的推論に動きを利用する統一的なフレームワークである。
過去のダイナミクスを後見の先行を通してエンコードし、前見の推論を通して将来の動きを予測し、後見の変調された共同専門家を通して統合する。
現実世界の長距離操作タスクにおいて大幅な改善を実現し、実用的なロボット設定においてその幅広い効果を実証している。
- 参考スコア(独自算出の注目度): 39.350965975615104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have recently enabled robotic manipulation by grounding visual and linguistic cues into actions. However, most VLAs assume the Markov property, relying only on the current observation and thus suffering from temporal myopia that degrades long-horizon coherence. In this work, we view motion as a more compact and informative representation of temporal context and world dynamics, capturing inter-state changes while filtering static pixel-level noise. Building on this idea, we propose HiF-VLA (Hindsight, Insight, and Foresight for VLAs), a unified framework that leverages motion for bidirectional temporal reasoning. HiF-VLA encodes past dynamics through hindsight priors, anticipates future motion via foresight reasoning, and integrates both through a hindsight-modulated joint expert to enable a ''think-while-acting'' paradigm for long-horizon manipulation. As a result, HiF-VLA surpasses strong baselines on LIBERO-Long and CALVIN ABC-D benchmarks, while incurring negligible additional inference latency. Furthermore, HiF-VLA achieves substantial improvements in real-world long-horizon manipulation tasks, demonstrating its broad effectiveness in practical robotic settings.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは最近、視覚的および言語的手がかりをアクションに接地することで、ロボット操作を可能にした。
しかしながら、ほとんどのVLAはマルコフの性質を仮定し、現在の観測にのみ依存しているため、長い水平コヒーレンスを低下させる時間的ミオピアに悩まされている。
本研究では,静的な画素レベルのノイズをフィルタリングしながら,時間的文脈と世界ダイナミクスのよりコンパクトで情報的な表現として,状態間変化を捉える。
このアイデアに基づいて、双方向の時間的推論に動きを利用する統一的なフレームワークであるHiF-VLA(Hindsight, Insight, and Foresight for VLAs)を提案する。
HiF-VLAは、過去のダイナミクスを後見の先行を通してエンコードし、前見の推論を通じて将来の動きを予測し、後見の調整された共同専門家を通して統合し、長期の操作のための'思慮の行動'パラダイムを可能にする。
その結果、HiF-VLAはLIBERO-LongとCALVINのABC-Dベンチマークの強いベースラインを超え、無視できない追加の推論遅延を発生させる。
さらに、HiF-VLAは実世界の長距離操作タスクを大幅に改善し、実用的なロボット設定においてその広範な効果を示す。
関連論文リスト
- Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models [66.96421290733126]
VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なパラダイムとして登場した。
我々はtextbfVision-Language Mixture-of-Transformers (VL-MoT) フレームワーク上に構築した textbfDeepVision-VLA を提案する。
DeepVision-VLAは、シミュレーションされたタスクと実世界のタスクで、それぞれ9.0%と7.5%の先行の最先端メソッドより優れている。
論文 参考訳(メタデータ) (2026-03-16T17:59:54Z) - FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model [73.03346643967309]
我々は、効果的な共同運動予測モデルには、時間的連続性と視覚的条件による監督的疎結合の両方が必要であると論じる。
FutureVLAは、視覚情報と運動情報を最初に分離することで、関節振動子埋め込みを抽出するように設計されている。
訓練後の段階において、我々は遅延埋め込みアライメント戦略を採用し、様々な下流VLAモデルによりこれらの時間的先行を内部化することができる。
論文 参考訳(メタデータ) (2026-03-11T12:39:55Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - Recursive Belief Vision Language Action Models [0.0]
ロングホライゾン操作には永続的でアクション条件のある状態表現が必要である。
現在の視覚言語モデルは時間的および物理的推論に制限がある。
本稿では,自己教師型世界モデルで学習した信念中心アーキテクチャであるRB-VLAを紹介する。
論文 参考訳(メタデータ) (2026-02-24T08:02:16Z) - VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models [26.542479606920423]
VLA(Vision-Language-Action)モデルは、幅広いロボット操作タスクにおいて強力なパフォーマンスを示している。
成功にもかかわらず、大きな事前訓練されたVLAモデルをアクション空間に拡張することで、視覚-アクションのミスアライメントを誘発することができる。
VLAモデルにおける視覚的条件付けを明確に強化するトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T20:59:29Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。