論文の概要: Looking Outside the Box to Ground Language in 3D Scenes
- arxiv url: http://arxiv.org/abs/2112.08879v2
- Date: Sun, 19 Dec 2021 12:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 11:21:07.897620
- Title: Looking Outside the Box to Ground Language in 3D Scenes
- Title(参考訳): ボックスの外から見た3Dシーン
- Authors: Ayush Jain, Nikolaos Gkanatsios, Ishita Mediratta, Katerina
Fragkiadaki
- Abstract要約: 本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。
言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。
3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
- 参考スコア(独自算出の注目度): 27.126171549887232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing language grounding models often use object proposal bottlenecks: a
pre-trained detector proposes objects in the scene and the model learns to
select the answer from these box proposals, without attending to the original
image or 3D point cloud. Object detectors are typically trained on a fixed
vocabulary of objects and attributes that is often too restrictive for
open-domain language grounding, where an utterance may refer to visual entities
at various levels of abstraction, such as a chair, the leg of a chair, or the
tip of the front leg of a chair. We propose a model for grounding language in
3D scenes that bypasses box proposal bottlenecks with three main innovations:
i) Iterative attention across the language stream, the point cloud feature
stream and 3D box proposals. ii) Transformer decoders with non-parametric
entity queries that decode 3D boxes for object and part referentials. iii)
Joint supervision from 3D object annotations and language grounding
annotations, by treating object detection as grounding of referential
utterances comprised of a list of candidate category labels. These innovations
result in significant quantitative gains (up to +9% absolute improvement on the
SR3D benchmark) over previous approaches on popular 3D language grounding
benchmarks. We ablate each of our innovations to show its contribution to the
performance of the model. When applied on language grounding on 2D images with
minor changes, it performs on par with the state-of-the-art while converges in
half of the GPU time. The code and checkpoints will be made available at
https://github.com/nickgkan/beauty_detr
- Abstract(参考訳): 事前訓練された検出器がシーン内のオブジェクトを提案し、モデルは元のイメージや3Dポイントクラウドに出席することなく、これらのボックスの提案から回答を選択することを学習する。
オブジェクト検出器は通常、オブジェクトや属性の固定された語彙で訓練されるが、これはオープンドメインの言語接地には制約が多すぎるため、発話は椅子、椅子の脚、椅子の前脚の先端など、様々な抽象レベルでの視覚実体を指すことがある。
我々は,boxの提案ボトルネックを回避し,3次元シーンにおける言語接地モデルを提案する。
i) 言語ストリーム、ポイントクラウド機能ストリーム、および3dボックスの提案全体での反復的な注意。
二 オブジェクト及び部分参照のための3Dボックスをデコードする非パラメトリックエンティティクエリを持つトランスフォーマーデコーダ
三 対象物検出を候補分類ラベルの一覧から成る参照発話の根拠として扱うことにより、3Dオブジェクトアノテーション及び言語基盤アノテーションからの共同監督
これらの革新は、一般的な3D言語グラウンドベンチマークに対する以前のアプローチに比べて、大きな量的向上(SR3Dベンチマークのプラス9%の改善)をもたらす。
私たちは、それぞれのイノベーションを省略して、モデルのパフォーマンスへの貢献を示しています。
マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作する。
コードとチェックポイントはhttps://github.com/nickgkan/beauty_detrで公開される。
関連論文リスト
- Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。
本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。
事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-02-13T15:18:27Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds [20.172702468478057]
3Dポイントクラウドでのディエンスキャプションは、オブジェクトレベルの3Dシーン理解を含む、視覚と言語に関する新たなタスクである。
本稿では,オブジェクトを記述に変換するトランスフォーマーベースのエンコーダデコーダアーキテクチャ,すなわちSpaCap3Dを提案する。
提案手法は, CIDEr@0.5IoUのベースライン法であるScan2Capを4.94%, CIDEr@0.5IoUで9.61%向上させる。
論文 参考訳(メタデータ) (2022-04-22T13:07:37Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。
既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。
基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文 参考訳(メタデータ) (2020-07-28T03:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。