論文の概要: Vision-Language-Action Models for Selective Robotic Disassembly: A Case Study on Critical Component Extraction from Desktops
- arxiv url: http://arxiv.org/abs/2512.04446v1
- Date: Thu, 04 Dec 2025 04:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.12141
- Title: Vision-Language-Action Models for Selective Robotic Disassembly: A Case Study on Critical Component Extraction from Desktops
- Title(参考訳): 選択型ロボット分解のための視覚言語行動モデル:デスクトップからの臨界成分抽出を事例として
- Authors: Chang Liu, Sibo Tian, Sara Behdad, Xiao Liang, Minghui Zheng,
- Abstract要約: RAMモジュールやCPUのような高価値のアイテムや、ハードディスクドライブのようなセンシティブなパーツは、シーケンシャルで正確で巧妙な操作を必要とします。
近年の視覚言語アクション(VLA)モデルの開発は、一般的なロボット操作タスクに対するエンドツーエンドのアプローチを提示している。
本稿では、ロボットRAMとCPUの分解のためのカスタマイズデータセットを収集し、それを2つの確立されたVLAアプローチの微調整に利用した。
- 参考スコア(独自算出の注目度): 5.567801088767209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating disassembly of critical components from end-of-life (EoL) desktops, such as high-value items like RAM modules and CPUs, as well as sensitive parts like hard disk drives, remains challenging due to the inherent variability and uncertainty of these products. Moreover, their disassembly requires sequential, precise, and dexterous operations, further increasing the complexity of automation. Current robotic disassembly processes are typically divided into several stages: perception, sequence planning, task planning, motion planning, and manipulation. Each stage requires explicit modeling, which limits generalization to unfamiliar scenarios. Recent development of vision-language-action (VLA) models has presented an end-to-end approach for general robotic manipulation tasks. Although VLAs have demonstrated promising performance on simple tasks, the feasibility of applying such models to complex disassembly remains largely unexplored. In this paper, we collected a customized dataset for robotic RAM and CPU disassembly and used it to fine-tune two well-established VLA approaches, OpenVLA and OpenVLA-OFT, as a case study. We divided the whole disassembly task into several small steps, and our preliminary experimental results indicate that the fine-tuned VLA models can faithfully complete multiple early steps but struggle with certain critical subtasks, leading to task failure. However, we observed that a simple hybrid strategy that combines VLA with a rule-based controller can successfully perform the entire disassembly operation. These findings highlight the current limitations of VLA models in handling the dexterity and precision required for robotic EoL product disassembly. By offering a detailed analysis of the observed results, this study provides insights that may inform future research to address current challenges and advance end-to-end robotic automated disassembly.
- Abstract(参考訳): エンド・オブ・ライフ(EoL)デスクトップから、RAMモジュールやCPUのような高価値なアイテムやハードディスクドライブのような機密性の高い部品などの重要なコンポーネントを分解する自動化は、これらの製品の本質的な多様性と不確実性のため、依然として困難である。
さらに、それらの分解はシーケンシャルで正確で巧妙な操作を必要とし、自動化の複雑さをさらに高めます。
現在のロボット分解プロセスは通常、知覚、シーケンス計画、タスク計画、動作計画、操作の2つの段階に分けられる。
各ステージは明示的なモデリングを必要とし、一般化は馴染みの無いシナリオに制限される。
近年の視覚言語アクション(VLA)モデルの開発は、一般的なロボット操作タスクに対するエンドツーエンドのアプローチを提示している。
VLAは単純なタスクで有望な性能を示したが、そのようなモデルを複雑な分解に応用する可能性はほとんど未解明のままである。
本稿では、ロボットRAMとCPUの分解のためのカスタマイズデータセットを収集し、2つの確立されたVLAアプローチ、OpenVLAとOpenVLA-OFTをケーススタディとして使用した。
我々は, 分解タスク全体をいくつかの小さなステップに分割し, 予備的な実験結果から, 微調整されたVLAモデルが複数の早期ステップを忠実に完了できるが, 特定の臨界サブタスクに難航し, タスクの失敗を招いたことが示唆された。
しかし、VLAとルールベースのコントローラを組み合わせた単純なハイブリッド戦略が、分解操作全体の実行に成功していることがわかった。
これらの結果は、ロボットEoL製品の分解に必要なデキスタリティと精度を扱う上でのVLAモデルの現在の限界を浮き彫りにしている。
この研究は、観測結果の詳細な分析を提供することで、現在の課題に対処し、エンドツーエンドのロボット自動分解を前進させるために、将来の研究に影響を及ぼす可能性のある洞察を提供する。
関連論文リスト
- RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation [68.7948300643741]
ロボットの異常検出と介入をリアルタイムに監視するロボット・コンディションド・ノーマライゼーション・フロー(RC-NF)を提案する。
RC-NFは、正規化フロー内のタスク認識ロボットとオブジェクト状態の処理を分離する。
従来のロボットタスクの監視方法と比較して、あらゆる異常なタイプで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-11T10:14:37Z) - SELF-VLA: A Skill Enhanced Agentic Vision-Language-Action Framework for Contact-Rich Disassembly [5.973392871392723]
視覚言語アクション(VLA)モデルは、標準的なロボット操作タスクにおいて印象的なパフォーマンスを示している。
明示的な分解スキルを統合したエージェントVLAフレームワークであるSELF-VLAを提案する。
論文 参考訳(メタデータ) (2026-03-10T22:30:28Z) - AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models [9.608633915316252]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
現在のパラダイムは、教師付き微調整中の粗大でハイレベルなタスク命令に依存している。
スケーラブルなオフライン後トレーニングパイプラインと統合された,最初のサブタスク対応VLAフレームワークである方法を提案する。
論文 参考訳(メタデータ) (2026-03-09T15:52:48Z) - LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies [54.150202739999806]
LiLo-VLAは、新しいロングホライゾンタスクに対してゼロショットのモジュラリティをトレーニングすることなく実現できるモジュラーフレームワークである。
LIBERO-Long++とUltra-Longという2つの課題からなる21タスクのシミュレーションベンチマークを導入する。
これらのシミュレーションでは、LiLo-VLAは平均成功率69%を達成し、Pi0.5を41%、OpenVLA-OFTを67%上回った。
論文 参考訳(メタデータ) (2026-02-25T03:33:39Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation [7.8735930411335895]
本稿では,VLAモデルをテストするロボット操作シーンを生成するファジィフレームワークであるVLATestを紹介する。
VLATestに基づいて,7つの代表的なVLAモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2024-09-19T16:33:00Z) - Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs [0.0]
Wonderful Teamは、ゼロショットでハイレベルなロボット計画を実行するためのフレームワークだ。
実世界のセマンティックおよび物理的計画タスクにおけるWonderful Teamのパフォーマンスは、しばしば別々のビジョンシステムに依存するメソッドを超えることが示される。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。