論文の概要: SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse
- arxiv url: http://arxiv.org/abs/2603.03836v1
- Date: Wed, 04 Mar 2026 08:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.8843
- Title: SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse
- Title(参考訳): SkillVLA: スキル再利用によるDual-Arm操作におけるコンビネーションの多様性に対処
- Authors: Xuanran Zhai, Zekai Huang, Longyan Wu, Qianyou Zhao, Qiaojun Yu, Jieji Ren, Ce Hao, Harold Soh,
- Abstract要約: 本稿では,デュアルアーム操作におけるスキル再利用を実現するためのフレームワークであるSkillVLAを提案する。
SkillVLAはスキル構成を大幅に改善し、全体的な成功率は0%から51%に向上し、協調作業や長期作業において高い性能を発揮する。
- 参考スコア(独自算出の注目度): 13.667022926041719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in vision-language-action (VLA) models has demonstrated strong potential for dual-arm manipulation, enabling complex behaviors and generalization to unseen environments. However, mainstream bimanual VLA formulations largely overlook the critical challenge of combinatorial diversity. Different pairings of single-arm behaviors can induce qualitatively distinct task behaviors, yet existing models do not explicitly account for this structure. We argue that effective bimanual VLAs should support skill reuse - the ability to recombine previously learned single-arm skills across novel left-right pairings - thereby avoiding the need to separately learn every possible combination. Current VLA designs entangle skills across arms, preventing such recomposition and limiting scalability. To address this limitation, we propose SkillVLA, a framework explicitly designed to enable skill reuse in dual-arm manipulation. Extensive experiments demonstrate that SkillVLA substantially improves skill composition, increasing overall success rate from 0% to 51%, and achieves strong performance on cooperative and long-horizon tasks.
- Abstract(参考訳): 視覚-言語-アクションモデル(VLA)の最近の進歩は、複雑な振る舞いを可能とし、目に見えない環境への一般化を可能にする、デュアルアーム操作の強力な可能性を示している。
しかし、主流の双対VLAの定式化は、組合せ多様性の重要な課題を概ね見落としている。
単腕動作の異なるペアリングは、定性的に異なるタスク動作を誘導することができるが、既存のモデルは、この構造を明示的に説明していない。
我々は、効果的に双方向のVLAはスキルの再利用をサポートするべきだと論じている。
現在のVLAは、腕に絡み合ったスキルを設計し、そのような再組み立てを防ぎ、スケーラビリティを制限している。
この制限に対処するため,デュアルアーム操作におけるスキル再利用を実現するために設計されたフレームワークであるSkillVLAを提案する。
SkillVLAはスキル構成を大幅に改善し、全体的な成功率が0%から51%に向上し、協調作業や長期作業において高いパフォーマンスを達成している。
関連論文リスト
- Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA [62.16042475700567]
本稿では,遠隔操作データ収集を簡易化する共有自律型アシスタントIMCopilotを紹介する。
我々は、不均一な力と触覚モーダルを予め訓練されたVLAバックボーンにシームレスに統合するアーキテクチャであるMoDE-VLAを提案する。
我々は,複雑度を増大させる4つの課題に対するアプローチの有効性を検証し,厳密な接触量の多い課題におけるベースラインよりも2倍の成功率の向上を実証した。
論文 参考訳(メタデータ) (2026-03-09T09:02:30Z) - DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action [62.70893433854428]
推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
論文 参考訳(メタデータ) (2025-11-27T06:03:53Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。