論文の概要: EC-Diffuser: Multi-Object Manipulation via Entity-Centric Behavior Generation
- arxiv url: http://arxiv.org/abs/2412.18907v1
- Date: Wed, 25 Dec 2024 13:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:40.934995
- Title: EC-Diffuser: Multi-Object Manipulation via Entity-Centric Behavior Generation
- Title(参考訳): EC-Diffuser:エンティティ中心の振る舞い生成によるマルチオブジェクト操作
- Authors: Carl Qi, Dan Haramati, Tal Daniel, Aviv Tamar, Amy Zhang,
- Abstract要約: 高次元観測から物体を操作することを学ぶことは重要な課題である。
最近のアプローチでは、大規模なオフラインデータを使用して、ピクセル観測からモデルをトレーニングしている。
本稿では、オブジェクト中心の表現とエンティティ中心のトランスフォーマーを活用する新しい行動クローニング(BC)手法を提案する。
- 参考スコア(独自算出の注目度): 25.12999060040265
- License:
- Abstract: Object manipulation is a common component of everyday tasks, but learning to manipulate objects from high-dimensional observations presents significant challenges. These challenges are heightened in multi-object environments due to the combinatorial complexity of the state space as well as of the desired behaviors. While recent approaches have utilized large-scale offline data to train models from pixel observations, achieving performance gains through scaling, these methods struggle with compositional generalization in unseen object configurations with constrained network and dataset sizes. To address these issues, we propose a novel behavioral cloning (BC) approach that leverages object-centric representations and an entity-centric Transformer with diffusion-based optimization, enabling efficient learning from offline image data. Our method first decomposes observations into an object-centric representation, which is then processed by our entity-centric Transformer that computes attention at the object level, simultaneously predicting object dynamics and the agent's actions. Combined with the ability of diffusion models to capture multi-modal behavior distributions, this results in substantial performance improvements in multi-object tasks and, more importantly, enables compositional generalization. We present BC agents capable of zero-shot generalization to tasks with novel compositions of objects and goals, including larger numbers of objects than seen during training. We provide video rollouts on our webpage: https://sites.google.com/view/ec-diffuser.
- Abstract(参考訳): 物体の操作は日常的な作業の共通部分であるが、高次元の観察から物体を操作することを学ぶことは重大な課題である。
これらの課題は、状態空間と所望の振る舞いの組合せの複雑さにより、多目的環境において高められる。
近年のアプローチでは、大規模なオフラインデータを使用して、ピクセル観測からモデルトレーニング、スケーリングによるパフォーマンス向上を実現する一方で、制約のあるネットワークとデータセットサイズを持つ未確認のオブジェクト構成における合成一般化に苦慮している。
これらの問題に対処するために,オブジェクト中心の表現とエンティティ中心のトランスフォーマを拡散に基づく最適化で活用し,オフライン画像データからの効率的な学習を可能にする,新しい行動クローニング(BC)手法を提案する。
提案手法は,まずオブジェクト中心の表現に分解し,オブジェクトレベルでの注目度を計算し,オブジェクトのダイナミクスとエージェントの動作を同時に予測するエンティティ中心の変換器によって処理される。
拡散モデルによるマルチモーダルな挙動分布のキャプチャ機能と組み合わせることで、多目的タスクの性能が大幅に向上し、さらに重要なことに、構成の一般化が可能になる。
我々は,対象と目標の新たな構成を持つタスクに対してゼロショットの一般化が可能なBCエージェントを提案する。
私たちは、Webページにビデオのロールアウトを提供しています。
関連論文リスト
- Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Neural Constraint Satisfaction: Hierarchical Abstraction for
Combinatorial Generalization in Object Rearrangement [75.9289887536165]
基礎となるエンティティを明らかにするための階層的抽象化手法を提案する。
本研究では,エージェントのモデルにおける実体の状態の介入と,環境中の物体に作用する状態の対応関係を学習する方法を示す。
この対応を利用して、オブジェクトの異なる数や構成に一般化する制御法を開発する。
論文 参考訳(メタデータ) (2023-03-20T18:19:36Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Efficient and Robust Training of Dense Object Nets for Multi-Object
Robot Manipulation [8.321536457963655]
我々はDense Object Nets(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案する。
本研究は,多目的データを用いた学習に重点を置いている。
実世界のロボットによる把握作業において,提案手法の頑健さと精度を実証する。
論文 参考訳(メタデータ) (2022-06-24T08:24:42Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Compositional Multi-Object Reinforcement Learning with Linear Relation
Networks [38.59852895970774]
我々は、固定されたマルチオブジェクト設定で操作タスクを学習し、オブジェクトの数が変化するとパフォーマンスが低下することなく、このスキルをゼロショットの外挿できるモデルに焦点を当てる。
我々のアプローチは、$K$で線形にスケールするので、エージェントは新しいオブジェクト番号にゼロショットを外挿して一般化することができる。
論文 参考訳(メタデータ) (2022-01-31T17:53:30Z) - Generalization and Robustness Implications in Object-Centric Learning [23.021791024676986]
本稿では,5つの共通オブジェクトデータセット上で,最先端の教師なしモデルを訓練する。
実験結果から,ダウンストリームタスクに一般的に有用なオブジェクト中心表現が得られた。
論文 参考訳(メタデータ) (2021-07-01T17:51:11Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。