論文の概要: Language Conditioned Spatial Relation Reasoning for 3D Object Grounding
- arxiv url: http://arxiv.org/abs/2211.09646v1
- Date: Thu, 17 Nov 2022 16:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:39:42.335034
- Title: Language Conditioned Spatial Relation Reasoning for 3D Object Grounding
- Title(参考訳): 3次元物体接地のための言語条件付き空間関係推論
- Authors: Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid,
Ivan Laptev
- Abstract要約: 自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 87.03299519917019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing objects in 3D scenes based on natural language requires
understanding and reasoning about spatial relations. In particular, it is often
crucial to distinguish similar objects referred by the text, such as "the left
most chair" and "a chair next to the window". In this work we propose a
language-conditioned transformer model for grounding 3D objects and their
spatial relations. To this end, we design a spatial self-attention layer that
accounts for relative distances and orientations between objects in input 3D
point clouds. Training such a layer with visual and language inputs enables to
disambiguate spatial relations and to localize objects referred by the text. To
facilitate the cross-modal learning of relations, we further propose a
teacher-student approach where the teacher model is first trained using
ground-truth object labels, and then helps to train a student model using point
cloud inputs. We perform ablation studies showing advantages of our approach.
We also demonstrate our model to significantly outperform the state of the art
on the challenging Nr3D, Sr3D and ScanRefer 3D object grounding datasets.
- Abstract(参考訳): 自然言語に基づく3dシーンにおけるオブジェクトのローカライズには、空間関係に関する理解と推論が必要である。
特に、「一番左の椅子」や「窓の隣の椅子」など、テキストで言及されている類似の物体を区別することが不可欠であることが多い。
本研究では,3次元物体を接地する言語条件付きトランスフォーマモデルとその空間関係について述べる。
この目的のために,入力3次元点雲内の物体間の相対距離と方向を考慮した空間的自己着床層を設計する。
このような層を視覚的および言語的な入力で訓練することで、空間的関係を曖昧にし、テキストが参照するオブジェクトをローカライズすることができる。
そこで本研究では,教師モデルにおいて,まず接地型オブジェクトラベルを用いて教師モデルを訓練し,次にポイントクラウド入力を用いた生徒モデルの学習を支援する教師・教師のアプローチを提案する。
我々はアプローチの利点を示すアブレーション研究を行う。
また、挑戦的なNr3D、Sr3D、ScanReferの3Dオブジェクトグラウンドデータセットにおいて、我々のモデルが芸術の状態を著しく上回ることを示す。
関連論文リスト
- Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Dense Object Grounding in 3D Scenes [28.05720194887322]
自然言語のセマンティクスに応じた3Dシーンでのオブジェクトのローカライズは、マルチメディア理解の分野における基本的な重要な課題である。
我々は,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG)を紹介した。
提案した3DOGSFormerは,最先端の3次元単一物体グラウンド法と,その密度オブジェクトの変形率を有意差で上回る。
論文 参考訳(メタデータ) (2023-09-05T13:27:19Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文 参考訳(メタデータ) (2021-12-16T13:50:23Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations
in 3D [71.11034329713058]
既存のデータセットには、大規模で高品質な3D地上真実情報がない。
Rel3Dは、空間関係を3Dでグラウンド化するための、最初の大規模で人間による注釈付きデータセットである。
我々は、データセットバイアスを減らすための新しいクラウドソーシング手法である、最小限のコントラストデータ収集を提案する。
論文 参考訳(メタデータ) (2020-12-03T01:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。