論文の概要: TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2511.05275v1
- Date: Fri, 07 Nov 2025 14:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.793683
- Title: TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models
- Title(参考訳): TwinVLA:Twin Single-Arm Vision-Language-Action Modelを用いたデータ効率の良いバイマニピュレーション
- Authors: Hokyun Im, Euijin Jeong, Jianlong Fu, Andrey Kolobov, Youngwoon Lee,
- Abstract要約: TwinVLAは、事前訓練されたシングルアームVLAの2つのコピーを協調されたバイマニュアルVLAに構成するモジュラーフレームワークである。
比較可能な大きさのモノリシックRTT-1Bモデルよりも優れており、両面的な事前訓練は不要である。
これらの結果から,高能率な双方向操作へのデータ効率でスケーラブルな経路として,モジュール構成アプローチを確立した。
- 参考スコア(独自算出の注目度): 31.748259587037527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action models (VLAs) trained on large-scale robotic datasets have demonstrated strong performance on manipulation tasks, including bimanual tasks. However, because most public datasets focus on single-arm demonstrations, adapting VLAs for bimanual tasks typically requires substantial additional bimanual data and fine-tuning. To address this challenge, we introduce TwinVLA, a modular framework that composes two copies of a pretrained single-arm VLA into a coordinated bimanual VLA. Unlike monolithic cross-embodiment models trained on mixtures of single-arm and bimanual data, TwinVLA improves both data efficiency and performance by composing pretrained single-arm policies. Across diverse bimanual tasks in real-world and simulation settings, TwinVLA outperforms a comparably-sized monolithic RDT-1B model without requiring any bimanual pretraining. Furthermore, it narrows the gap to state-of-the-art model, $\pi_0$ which rely on extensive proprietary bimanual data and compute cost. These results establish our modular composition approach as a data-efficient and scalable path toward high-performance bimanual manipulation, leveraging public single-arm data.
- Abstract(参考訳): 大規模ロボットデータセットでトレーニングされた視覚言語アクションモデル(VLA)は、バイマニュアルタスクを含む操作タスクに強いパフォーマンスを示す。
しかしながら、ほとんどの公開データセットはシングルアームのデモンストレーションに重点を置いているため、双方向タスクにVLAを適用するには、通常はかなりのバイマニュアルデータと微調整が必要である。
この課題に対処するために,事前訓練された単一アームVLAの2つのコピーを構成するモジュラーフレームワークであるTwinVLAを,協調したバイマンガルVLAに導入する。
単発と双発のデータを混合してトレーニングしたモノリシックなクロスエボディメントモデルとは異なり、TwinVLAは事前訓練された単発のポリシーを構成することにより、データ効率とパフォーマンスの両方を改善している。
TwinVLAは、現実世界やシミュレーション設定における多種多様なバイマン的タスクに対して、バイマン的事前トレーニングを必要とせずに、比較可能な大きさのモノリシックRTT-1Bモデルより優れている。
さらに、これは最先端のモデルである$\pi_0$とのギャップを狭め、広範なプロプライエタリなバイマニュアルデータと計算コストに依存している。
これらの結果から,一般のシングルアームデータを利用して,高性能な双方向操作を実現するための,データ効率とスケーラブルな経路として,モジュール構成アプローチを確立した。
関連論文リスト
- Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model [63.13906424204078]
本稿では, 汎用的でコンパクトな埋め込みモデルである KaLM-Embedding-V2 を提案する。
モデルアーキテクチャでは、0.5Bのコンパクトなサイズでモデルを実装し、固定長の埋め込みを生成する。
トレーニングデータでは, プレトレーニング用20種, 微調整用100種, コントラスト蒸留用100種をキュレートする。
論文 参考訳(メタデータ) (2025-06-26T01:09:44Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
我々はNV-Embedを導入し、アーキテクチャ設計、トレーニング手順、キュレートされたデータセットを取り入れた。
モデルアーキテクチャでは, プール埋め込みを実現するために, 潜時注意層を提案する。
学習アルゴリズムでは,2段階のコントラッシブ・インストラクション・チューニング手法を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。