論文の概要: Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2211.14241v1
- Date: Fri, 25 Nov 2022 17:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:20:47.746446
- Title: Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding
- Title(参考訳): 見回しと参照:3次元視覚接地のための2次元合成意味論知識蒸留
- Authors: Eslam Mohamed Bakr, Yasmeen Alsaedy, Mohamed Elhoseiny
- Abstract要約: 本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 23.672405624011873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The 3D visual grounding task has been explored with visual and language
streams comprehending referential language to identify target objects in 3D
scenes. However, most existing methods devote the visual stream to capturing
the 3D visual clues using off-the-shelf point clouds encoders. The main
question we address in this paper is "can we consolidate the 3D visual stream
by 2D clues synthesized from point clouds and efficiently utilize them in
training and testing?". The main idea is to assist the 3D encoder by
incorporating rich 2D object representations without requiring extra 2D inputs.
To this end, we leverage 2D clues, synthetically generated from 3D point
clouds, and empirically show their aptitude to boost the quality of the learned
visual representations. We validate our approach through comprehensive
experiments on Nr3D, Sr3D, and ScanRefer datasets and show consistent
performance gains compared to existing methods. Our proposed module, dubbed as
Look Around and Refer (LAR), significantly outperforms the state-of-the-art 3D
visual grounding techniques on three benchmarks, i.e., Nr3D, Sr3D, and
ScanRefer. The code is available at https://eslambakr.github.io/LAR.github.io/.
- Abstract(参考訳): 3dビジュアルグラウンドタスクは、3dシーンのターゲットオブジェクトを識別するために、visualとlanguage streams comprehending referential languageで検討されている。
しかし、既存のほとんどの手法は、市販の点群エンコーダを使って3D視覚的手がかりを捉えるために視覚的ストリームに費やしている。
この記事では、"ポイントクラウドから合成された2Dヒントによって3Dビジュアルストリームを統合でき、それらをトレーニングやテストで効率的に利用できますか?
主なアイデアは、2D入力を余分に必要とせずにリッチな2Dオブジェクト表現を組み込むことで、3Dエンコーダを支援することである。
この目的のために、3dポイントクラウドから合成された2dのヒントを活用し、その適性を実証的に示し、学習した視覚表現の品質を高める。
我々は,Nr3D,Sr3D,ScanReferのデータセットに関する総合的な実験を通じてアプローチを検証する。
提案するモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマーク(Nr3D, Sr3D, ScanRefer)で最先端の3D視覚グラウンド技術よりも優れている。
コードはhttps://eslambakr.github.io/lar.github.io/で入手できる。
関連論文リスト
- Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - TANDEM3D: Active Tactile Exploration for 3D Object Recognition [16.548376556543015]
触覚信号を用いた3次元物体認識のための協調学習フレームワークであるTANDEM3Dを提案する。
TANDEM3Dは、PointNet++を使って接触位置と正規値から3Dオブジェクト表現を構築する新しいエンコーダに基づいている。
本手法はシミュレーションで完全に訓練され,実世界の実験で検証される。
論文 参考訳(メタデータ) (2022-09-19T05:54:26Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。