論文の概要: Manual2Skill++: Connector-Aware General Robotic Assembly from Instruction Manuals via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.16344v1
- Date: Sat, 18 Oct 2025 04:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.957404
- Title: Manual2Skill++: Connector-Aware General Robotic Assembly from Instruction Manuals via Vision-Language Models
- Title(参考訳): Manual2Skill++:ビジョンランゲージモデルによる命令マニュアルからのコネクタ対応汎用ロボットアセンブリ
- Authors: Chenrui Tie, Shengxiang Sun, Yudi Lin, Yanbo Wang, Zhongrui Li, Zhouhan Zhong, Jinxuan Zhu, Yiman Pang, Haonan Chen, Junting Chen, Ruihai Wu, Lin Shao,
- Abstract要約: 我々は、接続を、コネクタタイプ、仕様、量、配置場所を含む、アセンブリ表現における第一級プリミティブと見なしている。
我々は,アセンブリマニュアルから構造化接続情報を自動的に抽出する視覚言語フレームワークであるManual2Skill++を提案する。
大規模な視覚言語モデルでは、記号図やアノテーションをマニュアルで解析してこれらのグラフをインスタンス化し、人間設計の命令に埋め込まれた豊富な接続知識を活用する。
- 参考スコア(独自算出の注目度): 26.61083683414806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assembly hinges on reliably forming connections between parts; yet most robotic approaches plan assembly sequences and part poses while treating connectors as an afterthought. Connections represent the critical "last mile" of assembly execution, while task planning may sequence operations and motion plan may position parts, the precise establishment of physical connections ultimately determines assembly success or failure. In this paper, we consider connections as first-class primitives in assembly representation, including connector types, specifications, quantities, and placement locations. Drawing inspiration from how humans learn assembly tasks through step-by-step instruction manuals, we present Manual2Skill++, a vision-language framework that automatically extracts structured connection information from assembly manuals. We encode assembly tasks as hierarchical graphs where nodes represent parts and sub-assemblies, and edges explicitly model connection relationships between components. A large-scale vision-language model parses symbolic diagrams and annotations in manuals to instantiate these graphs, leveraging the rich connection knowledge embedded in human-designed instructions. We curate a dataset containing over 20 assembly tasks with diverse connector types to validate our representation extraction approach, and evaluate the complete task understanding-to-execution pipeline across four complex assembly scenarios in simulation, spanning furniture, toys, and manufacturing components with real-world correspondence.
- Abstract(参考訳): 組み立てヒンジは部品間の接続を確実に形成するが、ほとんどのロボットは組み立てシーケンスと部品のポーズを計画し、コネクターを後付けとして扱う。
接続はアセンブリ実行における重要な"最終マイル"を表し、タスクプランニングはシーケンシャルな操作であり、モーションプランは部品を配置し、物理的な接続の正確な設定は最終的にアセンブリの成功または失敗を決定する。
本稿では,コネクタタイプ,仕様,量,配置位置など,アセンブリ表現におけるコネクションを第一級プリミティブとみなす。
そこで我々は,アセンブリマニュアルから構造化接続情報を自動的に抽出する視覚言語フレームワークであるManual2Skill++を提案する。
組立タスクを階層グラフとしてエンコードし、ノードが部品やサブアセンブリを表現し、エッジがコンポーネント間の接続関係を明示的にモデル化する。
大規模な視覚言語モデルでは、記号図やアノテーションをマニュアルで解析してこれらのグラフをインスタンス化し、人間設計の命令に埋め込まれた豊富な接続知識を活用する。
各種コネクターを用いた20以上の組立タスクを含むデータセットをキュレートし, シミュレーション, 家具, 玩具, 製造部品を実世界対応で横断する4つの複雑な組立シナリオにまたがるタスク理解・実行パイプラインの評価を行った。
関連論文リスト
- Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models [30.640434157219715]
我々は,ロボットが高レベルの手動指示で案内される複雑な組み立てタスクを実行できる新しいフレームワークであるManual2Skillを提案する。
提案手法では、視覚言語モデル(VLM)を用いて、命令画像から構造化された情報を抽出し、この情報を用いて階層的なアセンブリグラフを構築する。
実世界のIKEA家具の組み立てに成功して, Manual2Skillの有効性を実証した。
論文 参考訳(メタデータ) (2025-02-14T11:25:24Z) - Temporal Representation Alignment: Successor Features Enable Emergent Compositionality in Robot Instruction Following [50.377287115281476]
本研究では,現在および将来の状態の表現と時間的損失を関連付ける学習により,構成一般化が向上することを示す。
我々は,多様なロボット操作タスクおよびシミュレーションにおけるアプローチを評価し,言語やゴールイメージで指定されたタスクに対して,大幅な改善を示す。
論文 参考訳(メタデータ) (2025-02-08T05:26:29Z) - Manual-PA: Learning 3D Part Assembly from Instruction Diagrams [54.555154845137906]
本稿では,手動誘導3次元部品組立フレームワークである手動PAについて述べる。
以上の結果から, 部品の図面と順序を併用すると, 組立性能が向上し, 組立性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-27T03:10:29Z) - Embodied Instruction Following in Unknown Environments [64.57388036567461]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Aligning Step-by-Step Instructional Diagrams to Video Demonstrations [51.67930509196712]
組立図として表現される(i)命令ステップと、(ii)動画セグメントとを関連付ける新しい設定について考察する。
本稿では,ビデオの微妙な詳細化を学習する,教師付きコントラスト学習手法を提案する。
池田組立におけるIAW実験は, 代替案に対するアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-03-24T04:45:45Z) - IKEA-Manual: Seeing Shape Assembly Step by Step [26.79113677450921]
組立マニュアルと組み合わせた102個のIKEAオブジェクトからなるデータセットであるIKEA-Manualを提案する。
IKEAオブジェクトやアセンブリマニュアルには,組み立て部品,組み立て計画,手動セグメンテーション,3Dパーツと視覚マニュアル間の2D-3D対応など,詳細なアノテーションが提供されている。
論文 参考訳(メタデータ) (2023-02-03T17:32:22Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。