論文の概要: TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers
- arxiv url: http://arxiv.org/abs/2601.14133v1
- Date: Tue, 20 Jan 2026 16:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.417154
- Title: TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers
- Title(参考訳): TwinBrainVLA:非対称混合変換器による身体的タスクに対する一般VLMの可能性
- Authors: Bin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen,
- Abstract要約: 汎用的な意味理解を維持する汎用VLMをコーディネートする新しいアーキテクチャであるTwinBrainVLAを紹介する。
TwinBrainVLA は凍結した "Left Brain" を合成するが、これは頑健な視覚的推論を保ち、訓練可能な "Right Brain" を具体的知覚に特化している。
SimplerEnvとRoboCasaベンチマークの実験は、TwinBrainVLAが優れた操作性能を達成することを示した。
- 参考スコア(独自算出の注目度): 18.918223341729824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Vision-Language-Action (VLA) models typically fine-tune a monolithic Vision-Language Model (VLM) backbone explicitly for robotic control. However, this approach creates a critical tension between maintaining high-level general semantic understanding and learning low-level, fine-grained sensorimotor skills, often leading to "catastrophic forgetting" of the model's open-world capabilities. To resolve this conflict, we introduce TwinBrainVLA, a novel architecture that coordinates a generalist VLM retaining universal semantic understanding and a specialist VLM dedicated to embodied proprioception for joint robotic control. TwinBrainVLA synergizes a frozen "Left Brain", which retains robust general visual reasoning, with a trainable "Right Brain", specialized for embodied perception, via a novel Asymmetric Mixture-of-Transformers (AsyMoT) mechanism. This design allows the Right Brain to dynamically query semantic knowledge from the frozen Left Brain and fuse it with proprioceptive states, providing rich conditioning for a Flow-Matching Action Expert to generate precise continuous controls. Extensive experiments on SimplerEnv and RoboCasa benchmarks demonstrate that TwinBrainVLA achieves superior manipulation performance compared to state-of-the-art baselines while explicitly preserving the comprehensive visual understanding capabilities of the pre-trained VLM, offering a promising direction for building general-purpose robots that simultaneously achieve high-level semantic understanding and low-level physical dexterity.
- Abstract(参考訳): VLA(Standard Vision-Language-Action)モデルは通常、ロボット制御のためのモノリシックなVision-Language Model(VLM)バックボーンを微調整する。
しかし、このアプローチは、高レベルの一般的なセマンティック理解を維持することと、低レベルの微粒な感覚運動器のスキルを学ぶことの間に重大な緊張を生じさせ、しばしばモデルのオープンワールド能力の「破滅的な忘れ込み」につながる。
この対立を解決するために,汎用的な意味理解を保ちながら汎用的なVLMを協調する新しいアーキテクチャであるTwinBrainVLAと,協調型ロボット制御のためのプロバイオセプションを具現化した専門的なVLMを紹介する。
TwinBrainVLAは、非対称混合変換器(AsyMoT)機構を介して、トレーニング可能な「Right Brain」とともに、堅牢な視覚的推論を保持する凍結された「Left Brain」を合成する。
この設計により、右脳は凍結した左脳からセマンティック知識を動的にクエリし、それを受容的状態と融合させ、フローマッチングアクションエキスパートが正確な連続制御を生成するためのリッチな条件付けを提供する。
SimplerEnvとRoboCasaベンチマークの大規模な実験により、TwinBrainVLAは最先端のベースラインよりも優れた操作性能を達成し、事前訓練されたVLMの包括的な視覚的理解能力を明示的に保ち、高レベルのセマンティック理解と低レベルの物理ディキスタリティを同時に達成する汎用ロボットを構築するための有望な方向性を提供する。
関連論文リスト
- Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training [16.28589738595606]
汎用ロボットシステムは広範な一般化と高精度な行動実行を実現する必要がある。
Embodied Reasoning Intelligence Quotient (ERIQ)は,ロボット操作における大規模実施推論ベンチマークである。
本研究では、連続制御を離散シーケンスに変換するフローマッチングベースのアクショントークンであるFACTを提案する。
論文 参考訳(メタデータ) (2025-12-30T10:18:42Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - LLM-Assisted Iterative Evolution with Swarm Intelligence Toward SuperBrain [2.2494083541321466]
本稿では,大規模言語モデル(LLM)と人間ユーザの共進化を基盤とした,集団知能のための新しい枠組みを提案する。
静的なプロンプトエンジニアリングや分離されたエージェントシミュレーションとは異なり、我々の手法はサブクラス脳からスーパークラス脳への動的経路を強調する。
この作業は、概念的基盤と、スケーラブルで説明可能な、整合した集合AIに向けたアーキテクチャロードマップの両方を提供する。
論文 参考訳(メタデータ) (2025-08-30T14:12:46Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge [14.143521529613533]
視覚言語アクション(VLA)モデルは、ロボット工学の次世代モデルとして登場した。
既存のエンドツーエンドのVLAシステムは、モデルが特定のロボットタスクに適応するため、微調整中に重要な機能を失うことが多い。
一般化可能なVLAモデルは、VLMのコア能力を維持し拡張するべきである。
論文 参考訳(メタデータ) (2025-05-28T02:48:42Z) - RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。
大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。
強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2025-05-03T06:17:18Z) - MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation [24.200547898713126]
MLLM(Multimodal Large Language Models)は、複雑な言語と視覚的データの理解に優れる。
彼らの実世界の展開は、相当な計算とストレージの需要によって妨げられている。
動的LDM層活性化のためのMixture-of-Layers Vision-Language-Action Model (MoLe) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-26T10:05:38Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。