論文の概要: Dream2Real: Zero-Shot 3D Object Rearrangement with Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2312.04533v1
- Date: Thu, 7 Dec 2023 18:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:32:30.148430
- Title: Dream2Real: Zero-Shot 3D Object Rearrangement with Vision-Language
Models
- Title(参考訳): Dream2Real:視覚言語モデルによるゼロショット3Dオブジェクト再構成
- Authors: Ivan Kapelyukh, Yifei Ren, Ignacio Alzugaray, Edward Johns
- Abstract要約: 本稿では、2Dデータに基づいてトレーニングされた視覚言語モデル(VLM)を3Dオブジェクト再構成パイプラインに統合するロボットフレームワークであるDream2Realを紹介する。
これは、ロボットがシーンの3D表現を自律的に構築し、オブジェクトを仮想的に再配置し、その結果の配置の画像を描画することで実現される。
これらのレンダリングはVLMによって評価され、ユーザの指示に最も適した配列が選択され、ピック・アンド・プレイスで現実世界で再現される。
- 参考スコア(独自算出の注目度): 14.163489368617379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Dream2Real, a robotics framework which integrates
vision-language models (VLMs) trained on 2D data into a 3D object rearrangement
pipeline. This is achieved by the robot autonomously constructing a 3D
representation of the scene, where objects can be rearranged virtually and an
image of the resulting arrangement rendered. These renders are evaluated by a
VLM, so that the arrangement which best satisfies the user instruction is
selected and recreated in the real world with pick-and-place. This enables
language-conditioned rearrangement to be performed zero-shot, without needing
to collect a training dataset of example arrangements. Results on a series of
real-world tasks show that this framework is robust to distractors,
controllable by language, capable of understanding complex multi-object
relations, and readily applicable to both tabletop and 6-DoF rearrangement
tasks.
- Abstract(参考訳): 2dデータで訓練された視覚言語モデル(vlms)を3dオブジェクト再構成パイプラインに統合したロボットフレームワークdream2realを紹介する。
ロボットはシーンの3d表現を自律的に構築し、オブジェクトを仮想的に並べ替えることができ、その結果の配置のイメージがレンダリングされる。
これらのレンダリングはVLMによって評価され、ユーザの指示に最も適した配列が選択され、ピック・アンド・プレイスで現実世界で再現される。
これにより、サンプルアレンジのトレーニングデータセットを収集することなく、言語条件のアレンジメントをゼロショットで実行できる。
実世界のタスクの一連の結果は、このフレームワークが邪魔者に対して堅牢であり、言語によって制御可能であり、複雑なマルチオブジェクト関係を理解でき、テーブルトップと6-dofの再配置タスクの両方に容易に適用できることを示している。
関連論文リスト
- 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - HM3D-ABO: A Photo-realistic Dataset for Object-centric Multi-view 3D
Reconstruction [37.29140654256627]
本稿では、フォトリアリスティックなオブジェクト中心データセットHM3D-ABOを提案する。
リアルな屋内シーンとリアルなオブジェクトを構成することで構築される。
このデータセットは、カメラポーズ推定やノベルビュー合成といったタスクにも有用である。
論文 参考訳(メタデータ) (2022-06-24T16:02:01Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。