論文の概要: Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
- arxiv url: http://arxiv.org/abs/2601.09708v1
- Date: Wed, 14 Jan 2026 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.513233
- Title: Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
- Title(参考訳): Fast-ThinkAct:Verbalizable Latent Planningによる効率的な視覚・言語・アクション推論
- Authors: Chi-Pin Huang, Yunze Man, Zhiding Yu, Min-Hung Chen, Jan Kautz, Yu-Chiang Frank Wang, Fu-En Yang,
- Abstract要約: 我々は,動詞化可能な潜在推論により,コンパクトかつ高性能な計画を実現する効率的な推論フレームワークであるFast-ThinkActを提案する。
様々な具体的操作と推論ベンチマークの実験により、Fast-ThinkActは最大89.3%の推論遅延で強いパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 97.29507133345766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3\% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.
- Abstract(参考訳): VLA(Vision-Language-Action)タスクは複雑な視覚シーンの推論と動的環境における適応的なアクションの実行を必要とする。
推論VLAに関する最近の研究は、明示的なチェーン・オブ・シント(CoT)が一般化を改善できることを示しているが、長い推論トレースによる高い推論遅延に悩まされている。
我々は,動詞化可能な潜在推論により,コンパクトかつ高性能な計画を実現する効率的な推論フレームワークであるFast-ThinkActを提案する。
Fast-ThinkActは、教師から蒸留して潜伏したCoTを効率的に推論することを学び、好みの誘導された目的によって、言語的および視覚的計画能力の両方を具体化制御のために伝達する操作軌跡を調整する。
これにより、コンパクトな推論とアクション実行を効果的に結びつける推論強化されたポリシー学習が可能になる。
様々な具体的操作と推論ベンチマークの広範な実験により、Fast-ThinkActは、最先端の推論VLAよりも最大89.3\%の推論遅延を低減し、効果的なロングホライゾン計画、少数ショット適応、障害回復を実現している。
関連論文リスト
- Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning [47.27336786187929]
視覚言語アクション(VLA)推論タスクでは、エージェントはマルチモーダル命令を解釈し、長期計画を実行し、動的環境で適応的に行動する必要がある。
既存のアプローチは通常、エンドツーエンドでVLAモデルをトレーニングし、明示的な推論なしに入力を直接アクションにマッピングする。
本稿では,高レベルの推論と低レベルのアクション実行を,強化された視覚的潜在計画を通じて橋渡しする,デュアルシステムフレームワークであるThinkActを提案する。
論文 参考訳(メタデータ) (2025-07-22T17:59:46Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。