論文の概要: Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training
- arxiv url: http://arxiv.org/abs/2512.24125v1
- Date: Tue, 30 Dec 2025 10:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.356151
- Title: Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training
- Title(参考訳): 自己回帰的離散化事前学習によるロボット動作による一元的VLM推論
- Authors: Yi Liu, Sukai Wang, Dafeng Wei, Xiaowei Cai, Linqing Zhong, Jiange Yang, Guanghui Ren, Jinyu Zhang, Maoqing Yao, Chuankang Li, Xindong He, Liliang Chen, Jianlan Luo,
- Abstract要約: オープンワールド環境で動作する汎用ロボットシステムは、広範な一般化と高精度な行動実行の両方を達成する必要がある。
Embodied Reasoning Intelligence Quotient (ERIQ)は,ロボット操作における大規模実施推論ベンチマークである。
本研究では、連続制御を離散シーケンスに変換するフローマッチングベースのアクショントークンであるFACTを提案する。
- 参考スコア(独自算出の注目度): 16.28589738595606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose robotic systems operating in open-world environments must achieve both broad generalization and high-precision action execution, a combination that remains challenging for existing Vision-Language-Action (VLA) models. While large Vision-Language Models (VLMs) improve semantic generalization, insufficient embodied reasoning leads to brittle behavior, and conversely, strong reasoning alone is inadequate without precise control. To provide a decoupled and quantitative assessment of this bottleneck, we introduce Embodied Reasoning Intelligence Quotient (ERIQ), a large-scale embodied reasoning benchmark in robotic manipulation, comprising 6K+ question-answer pairs across four reasoning dimensions. By decoupling reasoning from execution, ERIQ enables systematic evaluation and reveals a strong positive correlation between embodied reasoning capability and end-to-end VLA generalization. To bridge the gap from reasoning to precise execution, we propose FACT, a flow-matching-based action tokenizer that converts continuous control into discrete sequences while preserving high-fidelity trajectory reconstruction. The resulting GenieReasoner jointly optimizes reasoning and action in a unified space, outperforming both continuous-action and prior discrete-action baselines in real-world tasks. Together, ERIQ and FACT provide a principled framework for diagnosing and overcoming the reasoning-precision trade-off, advancing robust, general-purpose robotic manipulation.
- Abstract(参考訳): オープンワールド環境で動く汎用ロボットシステムは、広範に一般化と高精度なアクション実行の両方を達成する必要がある。
大きな視覚言語モデル(VLM)はセマンティック・ジェネリゼーションを改善するが、不十分な具体的推論は不安定な振る舞いを招き、逆に強い推論は正確な制御なしには不十分である。
ロボット操作における大規模実施推論ベンチマークであるEmbodied Reasoning Intelligence Quotient (ERIQ)を導入し, 4つの推論次元にわたる6K以上の質問応答対について検討した。
推論を実行から切り離すことにより、ERIQは体系的な評価を可能にし、具体的推論能力とエンドツーエンドのVLA一般化との強い正の相関を明らかにする。
推論から正確な実行までのギャップを埋めるため,高速な軌道再構成を保ちながら連続的な制御を離散シーケンスに変換するフローマッチングベースのアクショントークンであるFACTを提案する。
結果として生まれたGenieReasonerは、統一された空間における推論とアクションを共同で最適化し、実世界のタスクにおいて、連続的なアクションと以前の離散的なアクションのベースラインの両方を上回ります。
ERIQとFACTは共に、推論精度のトレードオフを診断し克服するための原則的なフレームワークを提供し、堅牢で汎用的なロボット操作を推進している。
関連論文リスト
- From Human Intention to Action Prediction: A Comprehensive Benchmark for Intention-driven End-to-End Autonomous Driving [67.23302649816466]
現在の自律運転システムは、単純な操縦命令に従うように、インテリジェンスレベルで動作する。
Intention-Driveは、高レベルの人間の意図を安全かつ正確な運転行動に変換する能力を評価するために設計された最初の総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-12-13T11:59:51Z) - Mind to Hand: Purposeful Robotic Control via Embodied Reasoning [12.275897522668858]
ロボットの推論(「ミンド」)とロボットの動作(「手」)を統一するモデルであるLumo-1を紹介する。
我々のアプローチは、事前学習された視覚言語モデル(VLM)の一般的なマルチモーダル推論能力に基づいている。
我々は、強化学習を統合し、推論-動作の一貫性をさらに洗練し、意味推論と運動制御のループを閉じる。
論文 参考訳(メタデータ) (2025-12-09T13:19:37Z) - DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action [62.70893433854428]
推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
論文 参考訳(メタデータ) (2025-11-27T06:03:53Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Adaptive Termination for Multi-round Parallel Reasoning: An Universal Semantic Entropy-Guided Framework [12.361554676966552]
大規模言語モデル(LLM)の最近の進歩は、人工知能への進歩を加速させている。
逐次的および並列的推論パラダイムの相補的な長所を生かしたフレキシブルなテスト時協調推論フレームワークを設計することを目指している。
論文 参考訳(メタデータ) (2025-07-09T13:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。