論文の概要: Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2505.15098v1
- Date: Wed, 21 May 2025 04:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.869566
- Title: Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation
- Title(参考訳): データ効率の良いロボット一般化デクサラスマニピュレーションのためのオブジェクトフォーカスアクタ
- Authors: Yihang Li, Tianle Zhang, Xuelong Wei, Jiayi Li, Lin Zhao, Dongchi Huang, Zhirui Fang, Minhua Zheng, Wenjun Dai, Xiaodong He,
- Abstract要約: 我々は,汎用デキスタラス操作のための新しいデータ効率のアプローチであるObject-Focus Actor (OFA)を紹介する。
OFAは、厳密な操作タスクで観測される一貫した終端軌道を利用して、効率的なポリシートレーニングを可能にする。
OFAは10のデモで堅牢なパフォーマンスを実現し、そのデータ効率を強調している。
- 参考スコア(独自算出の注目度): 14.977743061489518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot manipulation learning from human demonstrations offers a rapid means to acquire skills but often lacks generalization across diverse scenes and object placements. This limitation hinders real-world applications, particularly in complex tasks requiring dexterous manipulation. Vision-Language-Action (VLA) paradigm leverages large-scale data to enhance generalization. However, due to data scarcity, VLA's performance remains limited. In this work, we introduce Object-Focus Actor (OFA), a novel, data-efficient approach for generalized dexterous manipulation. OFA exploits the consistent end trajectories observed in dexterous manipulation tasks, allowing for efficient policy training. Our method employs a hierarchical pipeline: object perception and pose estimation, pre-manipulation pose arrival and OFA policy execution. This process ensures that the manipulation is focused and efficient, even in varied backgrounds and positional layout. Comprehensive real-world experiments across seven tasks demonstrate that OFA significantly outperforms baseline methods in both positional and background generalization tests. Notably, OFA achieves robust performance with only 10 demonstrations, highlighting its data efficiency.
- Abstract(参考訳): 人間のデモから学ぶロボット操作は、スキルを得るための素早い手段を提供するが、多種多様なシーンや物体の配置の一般化を欠いていることが多い。
この制限は、特に複雑な操作を必要とする複雑なタスクにおいて、現実世界の応用を妨げる。
VLA(Vision-Language-Action)パラダイムは、大規模データを活用して一般化を強化する。
しかし、データ不足のため、VLAのパフォーマンスは制限されている。
本稿では,汎用デキスタラス操作のための新しいデータ効率のアプローチであるObject-Focus Actor (OFA)を紹介する。
OFAは、厳密な操作タスクで観測される一貫した終端軌道を利用して、効率的なポリシートレーニングを可能にする。
提案手法では,オブジェクト認識とポーズ推定,事前操作型ポーズ到着,OFAポリシー実行という階層的なパイプラインを用いる。
このプロセスは、さまざまなバックグラウンドや位置配置であっても、操作が集中し、効率的であることを保証する。
7つのタスクにわたる総合的な実世界の実験は、OFAが位置一般化テストと背景一般化テストの両方において、ベースライン法を大幅に上回っていることを示している。
特に、OFAは10のデモで堅牢なパフォーマンスを実現し、そのデータ効率を強調している。
関連論文リスト
- Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization [12.052338864734917]
AGNOSTOSは、操作においてクロスタスクゼロショットの一般化を厳格に評価するために設計された新しいシミュレーションベンチマークである。
X-ICMは、コンテキスト内デモで大きな言語モデルを条件付け、目に見えないタスクに対するアクションシーケンスを予測する手法である。
我々はAGNOSTOSとX-ICMが汎用的なロボット操作を促進する貴重なツールになると信じている。
論文 参考訳(メタデータ) (2025-05-21T15:35:57Z) - ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration [10.558622685760346]
本稿では,視覚・言語・アクションモデルによるオブジェクトの一般化を実現するための,シンプルで効果的な手法を提案する。
我々の手法は、ターゲットオブジェクトに関する知識を注入する軽量でスケーラブルな方法を提供する。
我々は、実際のロボットプラットフォーム上でObjectVLAを評価し、64%の成功率で100の新規オブジェクトを一般化できることを実証した。
論文 参考訳(メタデータ) (2025-02-26T15:56:36Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Universal Visual Decomposer: Long-Horizon Manipulation Made Easy [54.93745986073738]
現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。
従来のタスク分解手法では、タスク固有の知識が必要であり、計算集約的であり、新しいタスクに容易に適用できない。
視覚的長時間水平方向操作のためのオフザシェルフタスク分解法であるUniversal Visual Decomposer (UVD)を提案する。
シミュレーションと実世界のタスクの両方でUVDを広範囲に評価し、すべての場合において、UVDは模倣と強化学習設定でベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-12T17:59:41Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。