論文の概要: RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.21341v1
- Date: Sun, 22 Mar 2026 17:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.366928
- Title: RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models
- Title(参考訳): RoboAlign:視覚言語行動モデルにおける言語行動アライメントのためのテスト時間推論学習
- Authors: Dongyoung Kim, Sumin Park, Woomin Song, Seungku Kim, Taeyoung Kim, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo,
- Abstract要約: RoboAlignは視覚言語アクションモデル(VLA)を訓練し、マルチモーダル理解を低レベルのアクションに変換する。
我々のキーとなる考え方は、ゼロショット自然言語推論を用いてアクショントークンをサンプリングし、この推論を強化学習(RL)を用いて洗練し、アクション精度を向上させることである。
RoboAlignは、それぞれLIBERO、CALVIN、現実世界の環境におけるSFTベースラインよりも17.5%、18.9%、106.6%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 58.83401587988675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving embodied reasoning in multimodal-large-language models (MLLMs) is essential for building vision-language-action models (VLAs) on top of them to readily translate multimodal understanding into low-level actions. Accordingly, recent work has explored enhancing embodied reasoning in MLLMs through supervision of vision-question-answering type. However, these approaches have been reported to result in unstable VLA performance, often yielding only marginal or even negative gains. In this paper, we propose a more systematic MLLM training framework RoboAlign that reliably improves VLA performance. Our key idea is to sample action tokens via zero-shot natural language reasoning and refines this reasoning using reinforcement learning (RL) to improve action accuracy. As a result, RoboAlign bridges the modality gap between language and low-level actions in MLLMs, and facilitate knowledge transfer from MLLM to VLA. To validate the effectiveness of RoboAlign, we train VLAs by adding a diffusion-based action head on top of an MLLM backbone and evaluate them on major robotics benchmarks. Remarkably, by performing RL-based alignment after SFT using less than 1\% of the data, RoboAlign achieves performance improvements of 17.5\%, 18.9\%, and 106.6\% over SFT baselines on LIBERO, CALVIN, and real-world environments, respectively.
- Abstract(参考訳): マルチモーダル・大規模言語モデル(MLLM)における具体的推論の改善は、その上に視覚-言語-行動モデル(VLA)を構築する上で不可欠であり、マルチモーダル理解を低レベルな行動に変換するのに有用である。
そこで,近年のMLLMにおける具体的推論の強化について,視覚質問応答型の監視を通じて検討している。
しかしながら、これらのアプローチは不安定なVLA性能をもたらすと報告されており、しばしば限界あるいは負の利得しか得られない。
本稿では,VLA性能を確実に向上する,より体系的なMLLMトレーニングフレームワークRoboAlignを提案する。
我々のキーとなる考え方は、ゼロショット自然言語推論を通じてアクショントークンをサンプリングし、この推論を強化学習(RL)を用いて洗練し、アクション精度を向上させることである。
結果として、RoboAlignはMLLMにおける言語と低レベルアクションの間のモダリティギャップを埋め、MLLMからVLAへの知識伝達を促進する。
RoboAlignの有効性を検証するため、MLLMバックボーン上に拡散型アクションヘッドを追加してVLAをトレーニングし、主要なロボティクスベンチマークで評価する。
注目すべきは、データの1\%未満を使用してSFT後にRLベースのアライメントを実行することにより、RoboAlignは、それぞれLIBERO、CALVIN、実環境上のSFTベースラインよりも17.5\%、18.9\%、106.6\%の性能向上を達成することである。
関連論文リスト
- Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。