論文の概要: Is an object-centric representation beneficial for robotic manipulation ?
- arxiv url: http://arxiv.org/abs/2506.19408v1
- Date: Tue, 24 Jun 2025 08:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.548453
- Title: Is an object-centric representation beneficial for robotic manipulation ?
- Title(参考訳): オブジェクト中心表現はロボット操作に有用か?
- Authors: Alexandre Chapin, Emmanuel Dellandrea, Liming Chen,
- Abstract要約: オブジェクト中心表現(OCR)は近年,画像やビデオの構造的表現の学習において,コンピュータビジョンコミュニティにおける関心の対象となっている。
複数の一般化シナリオにまたがって1つの古典的対象中心法を評価し、その結果をいくつかの最先端のホリスティック表現と比較する。
以上の結果から,既存の手法は複雑なシーン構造を含む難解なシナリオでは失敗しがちであるが,オブジェクト指向手法はこれらの課題を克服するのに役立つことがわかった。
- 参考スコア(独自算出の注目度): 45.75998994869714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-centric representation (OCR) has recently become a subject of interest in the computer vision community for learning a structured representation of images and videos. It has been several times presented as a potential way to improve data-efficiency and generalization capabilities to learn an agent on downstream tasks. However, most existing work only evaluates such models on scene decomposition, without any notion of reasoning over the learned representation. Robotic manipulation tasks generally involve multi-object environments with potential inter-object interaction. We thus argue that they are a very interesting playground to really evaluate the potential of existing object-centric work. To do so, we create several robotic manipulation tasks in simulated environments involving multiple objects (several distractors, the robot, etc.) and a high-level of randomization (object positions, colors, shapes, background, initial positions, etc.). We then evaluate one classical object-centric method across several generalization scenarios and compare its results against several state-of-the-art hollistic representations. Our results exhibit that existing methods are prone to failure in difficult scenarios involving complex scene structures, whereas object-centric methods help overcome these challenges.
- Abstract(参考訳): オブジェクト中心表現(OCR)は近年,画像やビデオの構造的表現の学習において,コンピュータビジョンコミュニティにおける関心の対象となっている。
下流タスクでエージェントを学ぶためのデータ効率と一般化能力を改善する潜在的な方法として、数回提示されてきた。
しかし、既存のほとんどの研究は、学習された表現に対する推論の概念なしで、シーン分解においてのみそのようなモデルを評価する。
ロボット操作タスクは一般的に、オブジェクト間相互作用の可能性があるマルチオブジェクト環境を含む。
したがって、それらは既存のオブジェクト中心の作業の可能性を真に評価するための非常に興味深い遊び場である、と我々は主張する。
そこで我々は,複数の物体(複数物体,ロボットなど)と高レベルのランダム化(物体の位置,色,形状,背景,初期位置など)を含むシミュレーション環境において,ロボット操作タスクを複数作成する。
次に,複数の一般化シナリオにまたがる古典的対象中心法を評価し,その結果をいくつかの最先端のホリスティック表現と比較する。
以上の結果から,既存の手法は複雑なシーン構造を含む難解なシナリオでは失敗しがちであるが,オブジェクト指向手法はこれらの課題を克服するのに役立つことがわかった。
関連論文リスト
- Disentangled Object-Centric Image Representation for Robotic Manipulation [6.775909411692767]
本研究では,対象物,障害物,ロボットの体現物に対する不整合表現を導入したオブジェクト中心のフレームワークであるDOCIRを提案する。
提案手法は,多目的環境における視覚的インプットから選択と配置のスキルを習得する上で,最先端のパフォーマンスに繋がることを示す。
論文 参考訳(メタデータ) (2025-03-14T16:33:48Z) - Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - Lifelong Ensemble Learning based on Multiple Representations for
Few-Shot Object Recognition [6.282068591820947]
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。
生涯学習を容易にするため、各アプローチは、オブジェクト情報を即座に保存して検索するメモリユニットを備える。
提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
論文 参考訳(メタデータ) (2022-05-04T10:29:10Z) - Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task
Learning [108.08083976908195]
既存の強化学習アルゴリズムで学習したポリシーは、実際は一般化可能であることを示す。
本稿では,100以上の幾何学的に異なる実世界のオブジェクトを,単一のジェネラリストポリシーで手動操作できることを示す。
興味深いことに、オブジェクトポイントクラウド表現によるマルチタスク学習は、より一般化するだけでなく、シングルオブジェクトのスペシャリストポリシーよりも優れています。
論文 参考訳(メタデータ) (2021-11-04T17:59:56Z) - O2O-Afford: Annotation-Free Large-Scale Object-Object Affordance
Learning [24.9242853417825]
本稿では,様々なタスクに対するオブジェクト・オブジェクトのインタラクションを学習するための,統一的なアベイランス学習フレームワークを提案する。
我々は、人間のアノテーションやデモンストレーションを必要とせずに、大規模なオブジェクト・オブジェクト・アベイランス・ラーニングを行うことができる。
大規模合成データと実世界のデータを用いた実験により,提案手法の有効性が証明された。
論文 参考訳(メタデータ) (2021-06-29T04:38:12Z) - Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains [0.0]
オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。
シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。