論文の概要: Looking Outside the Box to Ground Language in 3D Scenes
- arxiv url: http://arxiv.org/abs/2112.08879v2
- Date: Sun, 19 Dec 2021 12:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 11:21:07.897620
- Title: Looking Outside the Box to Ground Language in 3D Scenes
- Title(参考訳): ボックスの外から見た3Dシーン
- Authors: Ayush Jain, Nikolaos Gkanatsios, Ishita Mediratta, Katerina
Fragkiadaki
- Abstract要約: 本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
- 参考スコア(独自算出の注目度): 27.126171549887232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing language grounding models often use object proposal bottlenecks: a
pre-trained detector proposes objects in the scene and the model learns to
select the answer from these box proposals, without attending to the original
image or 3D point cloud. Object detectors are typically trained on a fixed
vocabulary of objects and attributes that is often too restrictive for
open-domain language grounding, where an utterance may refer to visual entities
at various levels of abstraction, such as a chair, the leg of a chair, or the
tip of the front leg of a chair. We propose a model for grounding language in
3D scenes that bypasses box proposal bottlenecks with three main innovations:
i) Iterative attention across the language stream, the point cloud feature
stream and 3D box proposals. ii) Transformer decoders with non-parametric
entity queries that decode 3D boxes for object and part referentials. iii)
Joint supervision from 3D object annotations and language grounding
annotations, by treating object detection as grounding of referential
utterances comprised of a list of candidate category labels. These innovations
result in significant quantitative gains (up to +9% absolute improvement on the
SR3D benchmark) over previous approaches on popular 3D language grounding
benchmarks. We ablate each of our innovations to show its contribution to the
performance of the model. When applied on language grounding on 2D images with
minor changes, it performs on par with the state-of-the-art while converges in
half of the GPU time. The code and checkpoints will be made available at
https://github.com/nickgkan/beauty_detr
- Abstract(参考訳): 事前訓練された検出器がシーン内のオブジェクトを提案し、モデルは元のイメージや3Dポイントクラウドに出席することなく、これらのボックスの提案から回答を選択することを学習する。
オブジェクト検出器は通常、オブジェクトや属性の固定された語彙で訓練されるが、これはオープンドメインの言語接地には制約が多すぎるため、発話は椅子、椅子の脚、椅子の前脚の先端など、様々な抽象レベルでの視覚実体を指すことがある。
我々は,boxの提案ボトルネックを回避し,3次元シーンにおける言語接地モデルを提案する。
i) 言語ストリーム、ポイントクラウド機能ストリーム、および3dボックスの提案全体での反復的な注意。
二 オブジェクト及び部分参照のための3Dボックスをデコードする非パラメトリックエンティティクエリを持つトランスフォーマーデコーダ
三 対象物検出を候補分類ラベルの一覧から成る参照発話の根拠として扱うことにより、3Dオブジェクトアノテーション及び言語基盤アノテーションからの共同監督
これらの革新は、一般的な3D言語グラウンドベンチマークに対する以前のアプローチに比べて、大きな量的向上(SR3Dベンチマークのプラス9%の改善)をもたらす。
私たちは、それぞれのイノベーションを省略して、モデルのパフォーマンスへの貢献を示しています。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作する。
コードとチェックポイントはhttps://github.com/nickgkan/beauty_detrで公開される。
関連論文リスト
- Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Dense Object Grounding in 3D Scenes [28.05720194887322]
自然言語のセマンティクスに応じた3Dシーンでのオブジェクトのローカライズは、マルチメディア理解の分野における基本的な重要な課題である。
我々は,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG)を紹介した。
提案した3DOGSFormerは,最先端の3次元単一物体グラウンド法と,その密度オブジェクトの変形率を有意差で上回る。
論文 参考訳(メタデータ) (2023-09-05T13:27:19Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。