論文の概要: StructDiffusion: Object-Centric Diffusion for Semantic Rearrangement of
Novel Objects
- arxiv url: http://arxiv.org/abs/2211.04604v1
- Date: Tue, 8 Nov 2022 23:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:54:38.832883
- Title: StructDiffusion: Object-Centric Diffusion for Semantic Rearrangement of
Novel Objects
- Title(参考訳): structdiffusion: オブジェクト中心の拡散による新規オブジェクトの意味的再構成
- Authors: Weiyu Liu, Tucker Hermans, Sonia Chernova, Chris Paxton
- Abstract要約: そこで我々はStructDiffusionを提案し,ステップバイステップ命令を使わずに物理的に有意な構造を構築する。
本手法は,複雑な多段階の3次元計画作業において拡散モデルをどのように利用できるかを示す。
シミュレーションと実世界のタスクの両方において、保持対象について実験を行う。
- 参考スコア(独自算出の注目度): 29.332794718813307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots operating in human environments must be able to rearrange objects into
semantically-meaningful configurations, even if these objects are previously
unseen. In this work, we focus on the problem of building physically-valid
structures without step-by-step instructions. We propose StructDiffusion, which
combines a diffusion model and an object-centric transformer to construct
structures out of a single RGB-D image based on high-level language goals, such
as "set the table." Our method shows how diffusion models can be used for
complex multi-step 3D planning tasks. StructDiffusion improves success rate on
assembling physically-valid structures out of unseen objects by on average 16%
over an existing multi-modal transformer model, while allowing us to use one
multi-task model to produce a wider range of different structures. We show
experiments on held-out objects in both simulation and on real-world
rearrangement tasks. For videos and additional results, check out our website:
http://weiyuliu.com/StructDiffusion/.
- Abstract(参考訳): 人間の環境で動作しているロボットは、オブジェクトを意味的に意味のある構成に再構成できる必要がある。
本研究では,ステップバイステップの指示を伴わずに,物理的に有効な構造を構築する問題に着目する。
拡散モデルとオブジェクト中心変換器を組み合わせたStructDiffusionを提案し、「テーブルをセットする」などの高レベル言語目標に基づく単一のRGB-D画像から構造を構築する。
本手法は,複数ステップの複雑な3次元計画タスクに拡散モデルをどのように利用できるかを示す。
StructDiffusionは、既存のマルチモーダルトランスモデルに対して平均16%の差で、未知の物体から物理的に有意な構造を組み立てることの成功率を向上させるとともに、より広い範囲の異なる構造を生成するために、1つのマルチタスクモデルを使用することを可能にした。
シミュレーションおよび実世界の再配置作業における保持対象について実験を行った。
ビデオや追加結果については、webサイトをご覧ください。
関連論文リスト
- StructRe: Rewriting for Structured Shape Modeling [63.792684115318906]
本稿では,構造化形状モデリングの新しいアプローチとして,構造書換えシステムであるStructReを提案する。
ポイントとコンポーネントで表される3Dオブジェクトが与えられたら、StructReはそれを上向きに、より簡潔な構造に書き直すか、より詳細な構造に書き直すことができる。
論文 参考訳(メタデータ) (2023-11-29T10:35:00Z) - 6-DoF Stability Field via Diffusion Models [9.631625582146537]
本研究では,シーンの安定な構成を生成するオブジェクトの3次元ポーズを生成可能な生成モデルである6-DoFusionを提案する。
異なるオブジェクト配置と積み重ねタスクでモデルを評価し、安定したシーンを構築する能力を示す。
論文 参考訳(メタデータ) (2023-10-26T17:59:12Z) - Structural Concept Learning via Graph Attention for Multi-Level
Rearrangement Planning [2.7195102129095003]
本稿では,階層構造を持つシーンに対して,複数レベルのオブジェクトアレンジメント計画を実行するためのディープラーニング手法を提案する。
直感的な構造を持つ自己生成シミュレーションデータセットでトレーニングされ、任意の数のオブジェクトで見えないシーンで動作する。
提案手法を古典的およびモデルベースラインの範囲と比較し,そのシーン理解を活用して性能,柔軟性,効率性を向上することを示す。
論文 参考訳(メタデータ) (2023-09-05T19:35:44Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - StructFormer: Learning Spatial Structure for Language-Guided Semantic
Rearrangement of Novel Objects [44.4579949153234]
補助ロボットは、オブジェクトを意味のある構造に認識し、再配置する能力から大きな恩恵を受けるだろう。
本稿では,新しいトランスフォーマーベースニューラルネットワークであるStructFormerを提案する。
我々は、StructFormerによって、物理的なロボットが新しい物体を意味のある構造に再構成することができるという厳密な実験を通して示す。
論文 参考訳(メタデータ) (2021-10-19T18:13:01Z) - Predicting Stable Configurations for Semantic Placement of Novel Objects [37.18437299513799]
我々のゴールは、新しい環境における学習された意味的関係に従って、ロボットが未確認の物体を配置できるようにすることである。
我々は、未知のオブジェクトのセマンティック配置のための計画アルゴリズムと密に統合するために、モデルとトレーニングをゼロから構築する。
提案手法は,RGB-Dセンシングのみによる形状の異なるシーンにおける未知物体のセマンティック・アレンジメントのための動作計画を可能にする。
論文 参考訳(メタデータ) (2021-08-26T23:05:05Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Learning to Rearrange Deformable Cables, Fabrics, and Bags with
Goal-Conditioned Transporter Networks [36.90218756798642]
ケーブル、布、バッグなどの変形可能な物体を再配置し、操作することは、ロボット操作における長年の課題である。
1D, 2D, 3Dの変形可能な構造を持つシミュレーションベンチマークスイートを開発した。
本稿では,ロボット操作学習のためのモデルアーキテクチャであるTransporter Networksに目標条件を組み込むことを提案する。
論文 参考訳(メタデータ) (2020-12-06T22:21:54Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。