論文の概要: Bi-VLA: Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation
- arxiv url: http://arxiv.org/abs/2509.18865v1
- Date: Tue, 23 Sep 2025 10:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.80804
- Title: Bi-VLA: Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation
- Title(参考訳): Bi-VLA:視覚・言語融合によるバイラテラル制御に基づく模倣学習による行動生成
- Authors: Masato Kobayashi, Thanpimon Buamanee,
- Abstract要約: バイラテラル制御に基づく行動生成のための視覚言語融合(Bi-VLA)による模倣学習を提案する。
Bi-VLAは、双方向制御に基づく模倣学習を拡張して、1つのモデル内で複数のタスクを処理する。
Bi-VLAは視覚言語の組み合わせをうまく解釈し、タスクの成功率を向上させる。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation (Bi-VLA), a novel framework that extends bilateral control-based imitation learning to handle more than one task within a single model. Conventional bilateral control methods exploit joint angle, velocity, torque, and vision for precise manipulation but require task-specific models, limiting their generality. Bi-VLA overcomes this limitation by utilizing robot joint angle, velocity, and torque data from leader-follower bilateral control with visual features and natural language instructions through SigLIP and FiLM-based fusion. We validated Bi-VLA on two task types: one requiring supplementary language cues and another distinguishable solely by vision. Real-robot experiments showed that Bi-VLA successfully interprets vision-language combinations and improves task success rates compared to conventional bilateral control-based imitation learning. Our Bi-VLA addresses the single-task limitation of prior bilateral approaches and provides empirical evidence that combining vision and language significantly enhances versatility. Experimental results validate the effectiveness of Bi-VLA in real-world tasks. For additional material, please visit the website: https://mertcookimg.github.io/bi-vla/
- Abstract(参考訳): 本稿では,バイラテラル制御に基づく模倣学習を1つのモデル内で複数のタスクを処理するために,バイラテラル制御に基づく模倣学習を拡張する新しいフレームワークであるバイラテラル・ランゲージ・フュージョン・フォー・アクション・ジェネレーション(Bi-VLA)を提案する。
従来の二元制御法では、関節角、速度、トルク、視力を利用して精密な操作を行うが、その一般性を制限するためにタスク固有のモデルを必要とする。
Bi-VLAは、SigLIPとFiLMをベースとした融合を通じて、視覚的特徴と自然言語の指示を伴って、ロボットの関節角、速度、トルクデータを利用することにより、この制限を克服する。
Bi-VLAを2種類のタスクタイプで検証した。
実ロボット実験により、Bi-VLAは従来の双方向制御による模倣学習と比較して、視覚言語の組み合わせをうまく解釈し、タスクの成功率を向上させることがわかった。
我々のBi-VLAは、先進的アプローチの単一タスク制限に対処し、視覚と言語の組み合わせが多目的性を著しく向上する経験的証拠を提供する。
実世界のタスクにおけるBi-VLAの有効性を実験的に検証した。
追加資料については、 https://mertcookimg.github.io/bi-vla/.com/ を参照してください。
関連論文リスト
- CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification [48.81250395291505]
最近のVision-Language-Actionモデルは、広範な後トレーニングを必要とし、高い計算オーバーヘッドをもたらす。
命令駆動型ルーティングとスパーシフィケーションを利用して効率と性能を両立させるフレームワークであるCogVLAを提案する。
CogVLAは、それぞれ97.4%と70.0%の成功率で最先端のパフォーマンスを達成し、トレーニングコストを2.5倍に、推論遅延を2.8倍に削減した。
論文 参考訳(メタデータ) (2025-08-28T17:50:58Z) - Bi-LAT: Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers [16.724380665811044]
Bi-LATは、自然言語処理と双方向制御を統合する新しい模倣学習フレームワークである。
Bi-LATは、現実世界のタスクにおけるニュアンスド・フォースの要求を区別することを学ぶ。
論文 参考訳(メタデータ) (2025-04-02T02:21:30Z) - ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model [21.844214660424175]
ChatVLAは、初期制御熟達後のマルチモーダルデータを段階的に統合するフェーズアライメントトレーニングと、タスク干渉を最小限に抑えるMixture-of-Expertsアーキテクチャを特徴とする、新しいフレームワークである。
ChatVLAは、視覚的問合せデータセット上での競合性能を示し、マルチモーダル理解ベンチマークにおける最先端のビジョン言語アクション(VLA)メソッドを大幅に上回っている。
本研究は,ロバストなマルチモーダル理解と効果的なロボット制御を実現するための統合フレームワークの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-20T10:16:18Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。