論文の概要: StructDiffusion: Language-Guided Creation of Physically-Valid Structures
using Unseen Objects
- arxiv url: http://arxiv.org/abs/2211.04604v2
- Date: Tue, 25 Apr 2023 15:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 00:01:58.977484
- Title: StructDiffusion: Language-Guided Creation of Physically-Valid Structures
using Unseen Objects
- Title(参考訳): structdiffusion: 未知のオブジェクトを用いた物理的に有価な構造の作成
- Authors: Weiyu Liu, Yilun Du, Tucker Hermans, Sonia Chernova, Chris Paxton
- Abstract要約: そこで我々はStructDiffusionを提案し,ステップバイステップ命令を使わずに物理的に有意な構造を構築する。
提案手法は,複数の言語条件の多段階3D計画タスクを実行できる。
シミュレーションと実世界のタスクの両方において、保持対象について実験を行う。
- 参考スコア(独自算出の注目度): 35.855172217856726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots operating in human environments must be able to rearrange objects into
semantically-meaningful configurations, even if these objects are previously
unseen. In this work, we focus on the problem of building physically-valid
structures without step-by-step instructions. We propose StructDiffusion, which
combines a diffusion model and an object-centric transformer to construct
structures given partial-view point clouds and high-level language goals, such
as "set the table". Our method can perform multiple challenging
language-conditioned multi-step 3D planning tasks using one model.
StructDiffusion even improves the success rate of assembling physically-valid
structures out of unseen objects by on average 16% over an existing multi-modal
transformer model trained on specific structures. We show experiments on
held-out objects in both simulation and on real-world rearrangement tasks.
Importantly, we show how integrating both a diffusion model and a
collision-discriminator model allows for improved generalization over other
methods when rearranging previously-unseen objects. For videos and additional
results, see our website: https://structdiffusion.github.io/.
- Abstract(参考訳): 人間の環境で動作しているロボットは、オブジェクトを意味的に意味のある構成に再構成できる必要がある。
本研究では,ステップバイステップの指示を伴わずに,物理的に有効な構造を構築する問題に着目する。
本研究では,拡散モデルとオブジェクト中心トランスフォーマーを組み合わせることで,部分視点の雲や高レベルな言語目標,例えば「テーブルをセットする」といった構造を構築する。
1つのモデルを用いて言語条件の多段階計画タスクを複数実行することができる。
structdiffusionは、特定の構造で訓練された既存のマルチモーダルトランスフォーマーモデルと比較して、物理的に有価な構造を、被写体から組み立てる成功率を平均16%向上させる。
シミュレーションおよび実世界の再配置作業における保持対象について実験を行った。
重要となるのは,拡散モデルと衝突弁別モデルを統合することで,これまで見つからなかった物体を並べ替える際の他の方法に対する一般化が向上することを示すことである。
ビデオや追加結果については、当社のwebサイトをご覧ください。
関連論文リスト
- Structured Object Language Modeling (SoLM): Native Structured Objects Generation Conforming to Complex Schemas with Self-Supervised Denoising [7.59750288224997]
私たちは、言語モデリング問題(構造化オブジェクト言語モデリング)として問題を枠組み化します。
本稿では,そのようなオブジェクトの既存のデータセットからモデルを学習するための自己教師付きデノベーション手法を提案する。
実験結果から,提案手法は即時駆動型汎用LCMと一致し,性能が良くなることがわかった。
論文 参考訳(メタデータ) (2024-11-28T18:16:41Z) - StructRe: Rewriting for Structured Shape Modeling [63.792684115318906]
本稿では,構造化形状モデリングの新しいアプローチとして,構造書換えシステムであるStructReを提案する。
ポイントとコンポーネントで表される3Dオブジェクトが与えられたら、StructReはそれを上向きに、より簡潔な構造に書き直すか、より詳細な構造に書き直すことができる。
論文 参考訳(メタデータ) (2023-11-29T10:35:00Z) - Structural Concept Learning via Graph Attention for Multi-Level
Rearrangement Planning [2.7195102129095003]
本稿では,階層構造を持つシーンに対して,複数レベルのオブジェクトアレンジメント計画を実行するためのディープラーニング手法を提案する。
直感的な構造を持つ自己生成シミュレーションデータセットでトレーニングされ、任意の数のオブジェクトで見えないシーンで動作する。
提案手法を古典的およびモデルベースラインの範囲と比較し,そのシーン理解を活用して性能,柔軟性,効率性を向上することを示す。
論文 参考訳(メタデータ) (2023-09-05T19:35:44Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - StructFormer: Learning Spatial Structure for Language-Guided Semantic
Rearrangement of Novel Objects [44.4579949153234]
補助ロボットは、オブジェクトを意味のある構造に認識し、再配置する能力から大きな恩恵を受けるだろう。
本稿では,新しいトランスフォーマーベースニューラルネットワークであるStructFormerを提案する。
我々は、StructFormerによって、物理的なロボットが新しい物体を意味のある構造に再構成することができるという厳密な実験を通して示す。
論文 参考訳(メタデータ) (2021-10-19T18:13:01Z) - Predicting Stable Configurations for Semantic Placement of Novel Objects [37.18437299513799]
我々のゴールは、新しい環境における学習された意味的関係に従って、ロボットが未確認の物体を配置できるようにすることである。
我々は、未知のオブジェクトのセマンティック配置のための計画アルゴリズムと密に統合するために、モデルとトレーニングをゼロから構築する。
提案手法は,RGB-Dセンシングのみによる形状の異なるシーンにおける未知物体のセマンティック・アレンジメントのための動作計画を可能にする。
論文 参考訳(メタデータ) (2021-08-26T23:05:05Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Learning to Rearrange Deformable Cables, Fabrics, and Bags with
Goal-Conditioned Transporter Networks [36.90218756798642]
ケーブル、布、バッグなどの変形可能な物体を再配置し、操作することは、ロボット操作における長年の課題である。
1D, 2D, 3Dの変形可能な構造を持つシミュレーションベンチマークスイートを開発した。
本稿では,ロボット操作学習のためのモデルアーキテクチャであるTransporter Networksに目標条件を組み込むことを提案する。
論文 参考訳(メタデータ) (2020-12-06T22:21:54Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。