論文の概要: SELF-VLA: A Skill Enhanced Agentic Vision-Language-Action Framework for Contact-Rich Disassembly
- arxiv url: http://arxiv.org/abs/2603.11080v1
- Date: Tue, 10 Mar 2026 22:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.189613
- Title: SELF-VLA: A Skill Enhanced Agentic Vision-Language-Action Framework for Contact-Rich Disassembly
- Title(参考訳): SELF-VLA:コンタクトリッチ分解のための高度なエージェント・ビジョン・ランゲージ・アクション・フレームワーク
- Authors: Chang Liu, Sibo Tian, Xiao Liang, Minghui Zheng,
- Abstract要約: 視覚言語アクション(VLA)モデルは、標準的なロボット操作タスクにおいて印象的なパフォーマンスを示している。
明示的な分解スキルを統合したエージェントVLAフレームワークであるSELF-VLAを提案する。
- 参考スコア(独自算出の注目度): 5.973392871392723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disassembly automation has long been pursued to address the growing demand for efficient and proper recovery of valuable components from the end-of-life (EoL) electronic products. Existing approaches have demonstrated promising and regimented performance by decomposing the disassembly process into different subtasks. However, each subtask typically requires extensive data preparation, model training, and system management. Moreover, these approaches are often task- and component-specific, making them poorly suited to handle the variability and uncertainty of EoL products and limiting their generalization capabilities. All these factors restrict the practical deployment of current robotic disassembly systems and leave them highly reliant on human labor. With the recent development of foundation models in robotics, vision-language-action (VLA) models have shown impressive performance on standard robotic manipulation tasks, but their applicability to complex, contact-rich, and long-horizon industrial practices like disassembly, which requires sequential and precise manipulation, remains limited. To address this challenge, we propose SELF-VLA, an agentic VLA framework that integrates explicit disassembly skills. Experimental studies demonstrate that our framework significantly outperforms current state-of-the-art end-to-end VLA models on two contact-rich disassembly tasks. The video illustration can be found via https://zh.engr.tamu.edu/wp-content/uploads/sites/310/2026/03/IROS-VLA-Video.mp4.
- Abstract(参考訳): 解体自動化は、人生の終わり(EoL)電子製品から価値ある部品を効率よく適切な回収する需要の高まりに対処するために、長い間追求されてきた。
既存のアプローチでは、分解過程を異なるサブタスクに分解することで、有望かつ連隊的なパフォーマンスを示している。
しかし、各サブタスクは通常、広範なデータ準備、モデルトレーニング、システム管理を必要とする。
さらに、これらのアプローチはタスク固有かつコンポーネント固有であり、EoL製品の多様性と不確実性に対処し、一般化能力を制限するのに不適である。
これらすべての要因は、現在のロボット解体システムの実践的な展開を制限し、それらを人的労働に強く依存させます。
ロボット工学における最近の基礎モデルの発展に伴い、視覚言語アクション(VLA)モデルは、標準的なロボット操作タスクにおいて印象的なパフォーマンスを示したが、複雑な、接触に富んだ、そして正確な操作を必要とする分解のような長い水平産業プラクティスへの適用性はまだ限られている。
この課題に対処するために、明示的な分解スキルを統合するエージェントVLAフレームワークであるSELF-VLAを提案する。
実験により、我々のフレームワークは2つの接触リッチな分解タスクにおいて、最先端のVLAモデルよりも大幅に優れていることが示された。
ビデオイラストはhttps://zh.engr.tamu.edu/wp-content/uploads/sites/310/2026/03/IROS-VLA-Video.mp4で見ることができる。
関連論文リスト
- Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA [62.16042475700567]
本稿では,遠隔操作データ収集を簡易化する共有自律型アシスタントIMCopilotを紹介する。
我々は、不均一な力と触覚モーダルを予め訓練されたVLAバックボーンにシームレスに統合するアーキテクチャであるMoDE-VLAを提案する。
我々は,複雑度を増大させる4つの課題に対するアプローチの有効性を検証し,厳密な接触量の多い課題におけるベースラインよりも2倍の成功率の向上を実証した。
論文 参考訳(メタデータ) (2026-03-09T09:02:30Z) - LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies [54.150202739999806]
LiLo-VLAは、新しいロングホライゾンタスクに対してゼロショットのモジュラリティをトレーニングすることなく実現できるモジュラーフレームワークである。
LIBERO-Long++とUltra-Longという2つの課題からなる21タスクのシミュレーションベンチマークを導入する。
これらのシミュレーションでは、LiLo-VLAは平均成功率69%を達成し、Pi0.5を41%、OpenVLA-OFTを67%上回った。
論文 参考訳(メタデータ) (2026-02-25T03:33:39Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。