論文の概要: Hybrid Training for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2510.00600v1
- Date: Wed, 01 Oct 2025 07:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.440599
- Title: Hybrid Training for Vision-Language-Action Models
- Title(参考訳): ビジョン・ランゲージ・アクションモデルのためのハイブリッドトレーニング
- Authors: Pietro Mazzaglia, Cansu Sancaktar, Markus Peschl, Daniel Dijkman,
- Abstract要約: 本稿では,視覚言語モデルを用いて思考から学習し,関連するパフォーマンス向上の恩恵を受けることができるフレームワークを提案する。
多様な出力のセットを条件付きで予測することを学ぶことで、HyTは推論時の柔軟性をサポートし、モデルが直接アクションを予測するか、思考を生成するか、指示に従うことができる。
- 参考スコア(独自算出の注目度): 10.451756630631609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using Large Language Models to produce intermediate thoughts, a.k.a. Chain-of-thought (CoT), before providing an answer has been a successful recipe for solving complex language tasks. In robotics, similar embodied CoT strategies, generating thoughts before actions, have also been shown to lead to improved performance when using Vision-Language-Action models (VLAs). As these techniques increase the length of the model's generated outputs to include the thoughts, the inference time is negatively affected. Delaying an agent's actions in real-world executions, as in robotic manipulation settings, strongly affects the usability of a method, as tasks require long sequences of actions. However, is the generation of long chains-of-thought a strong prerequisite for achieving performance improvements? In this work, we explore the idea of Hybrid Training (HyT), a framework that enables VLAs to learn from thoughts and benefit from the associated performance gains, while enabling the possibility to leave out CoT generation during inference. Furthermore, by learning to conditionally predict a diverse set of outputs, HyT supports flexibility at inference time, enabling the model to either predict actions directly, generate thoughts or follow instructions. We evaluate the proposed method in a series of simulated benchmarks and real-world experiments.
- Abstract(参考訳): 大きな言語モデルを使って中間的思考、すなわち CoT (Chain-of-thinkt) を創出するが、それ以前には、複雑な言語タスクを解くためのレシピとして成功していた。
ロボット工学では、同様のCoT戦略を具現化し、行動の前に思考を発生させることで、ビジョン・ランゲージ・アクション・モデル(VLA)を用いた場合のパフォーマンスが向上することが示されている。
これらの手法がモデルが生成した出力の長さを増やして思考を含むようになると、推論時間は負の影響を受ける。
エージェントのアクションを実世界の実行に遅延させることは、ロボット操作の設定のように、タスクが長いアクションシーケンスを必要とするため、メソッドのユーザビリティに強く影響を与える。
しかし、長鎖の生成は、パフォーマンス改善を達成するための強い前提条件なのだろうか?
本研究では,VLAが思考から学び,関連するパフォーマンス向上から利益を得ることのできるフレームワークであるハイブリッドトレーニング(Hybrid Training, HyT)のアイデアについて検討する。
さらに、様々な出力のセットを条件付きで予測することを学ぶことで、HyTは推論時の柔軟性をサポートし、モデルが直接アクションを予測するか、思考を生成するか、指示に従うことができる。
提案手法をシミュレーションしたベンチマークと実世界の実験で評価する。
関連論文リスト
- FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning [11.68914161151634]
グループ相対ポリシー最適化(GRPO)は、大規模言語モデルの推論能力を改善する上で大きな可能性を証明している。
本稿では, リアルタイムレベルに応じて, ドラフトと検証戦略を調整する投機的復号化フレームワークを提案する。
提案手法は,2.35xから2.72xまでのエンドツーエンドの高速化を実現し,効率性においてベースラインアプローチを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-09-26T02:48:41Z) - ProxyThinker: Test-Time Guidance through Small Visual Reasoners [23.443166029380027]
ProxyThinkerは、大規模なモデルで、訓練なしに、小さく、ゆっくりと考えられた視覚的推論能力を継承できる推論時手法である。
RFTの推論者からベースモデルの出力を減じることで、プロクシーティンカーは自己検証や自己補正のような出現した振る舞いによって証明される緩やかな思考的推論を導き出す。
本実装では,複数の言語モデルを並列化手法で効率的にコーディネートし,従来の復号時間法と比較して最大38$timesの高速推論を実現する。
論文 参考訳(メタデータ) (2025-05-30T17:59:43Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Warmup Generations: A Task-Agnostic Approach for Guiding Sequence-to-Sequence Learning with Unsupervised Initial State Generation [34.55224347308013]
シーケンシャル・ツー・シークエンス・タスクのための従来の教師付き微調整(SFT)戦略は、しばしばターゲット出力を直接生成するようにモデルを訓練する。
モデルが中間の"upwarm"シーケンスを生成可能なタスク非依存フレームワークを提案する。
提案手法は従来のSFT手法よりも優れており,シーケンシャル・ツー・シーケンス・タスクに対してスケーラブルで柔軟なソリューションを提供する。
論文 参考訳(メタデータ) (2025-02-17T20:23:42Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。