論文の概要: UniT3D: A Unified Transformer for 3D Dense Captioning and Visual
Grounding
- arxiv url: http://arxiv.org/abs/2212.00836v1
- Date: Thu, 1 Dec 2022 19:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:39:45.373909
- Title: UniT3D: A Unified Transformer for 3D Dense Captioning and Visual
Grounding
- Title(参考訳): UniT3D:3Dディエンスキャプションと視覚グラウンドのための統一トランス
- Authors: Dave Zhenyu Chen, Ronghang Hu, Xinlei Chen, Matthias Nie{\ss}ner,
Angel X. Chang
- Abstract要約: 3Dの密接なキャプションと視覚的接地を行うには、基礎となるマルチモーダル関係の共通かつ共有的な理解が必要である。
我々は3次元視覚的接地と密接なキャプションを共同で解くためのトランスフォーマーベースアーキテクチャUniT3Dを提案する。
- 参考スコア(独自算出の注目度): 41.15622591021133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing 3D dense captioning and visual grounding requires a common and
shared understanding of the underlying multimodal relationships. However,
despite some previous attempts on connecting these two related tasks with
highly task-specific neural modules, it remains understudied how to explicitly
depict their shared nature to learn them simultaneously. In this work, we
propose UniT3D, a simple yet effective fully unified transformer-based
architecture for jointly solving 3D visual grounding and dense captioning.
UniT3D enables learning a strong multimodal representation across the two tasks
through a supervised joint pre-training scheme with bidirectional and
seq-to-seq objectives. With a generic architecture design, UniT3D allows
expanding the pre-training scope to more various training sources such as the
synthesized data from 2D prior knowledge to benefit 3D vision-language tasks.
Extensive experiments and analysis demonstrate that UniT3D obtains significant
gains for 3D dense captioning and visual grounding.
- Abstract(参考訳): 3次元の密接なキャプションと視覚的接地を行うには、基礎となるマルチモーダル関係の共通かつ共有的な理解が必要である。
しかしながら、これらの2つの関連するタスクを高いタスク固有のニューラルモジュールに接続する以前の試みにもかかわらず、共有された性質を明示的に表現して同時に学習する方法はまだ検討されていない。
本研究では,3次元視覚接地と密接なキャプションを共同で解くための,完全統一トランスフォーマーアーキテクチャであるunit3dを提案する。
unit3dは双方向およびseq-to-seq目的の教師付き事前学習スキームを通じて、2つのタスクにまたがる強力なマルチモーダル表現を学習できる。
汎用アーキテクチャ設計により、UniT3Dは事前学習範囲を2D事前知識から合成されたデータなど、より多様なトレーニングソースに拡大し、3Dビジョン言語タスクの恩恵を受けることができる。
広汎な実験と解析により、UniT3Dは3D高密度キャプションと視覚的グラウンドニングにおいて大きな利益を得ることが示された。
関連論文リスト
- TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [31.59552321961767]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - Uni3DL: Unified Model for 3D and Language Understanding [41.74095171149082]
3Dおよび言語理解のための統一モデルであるUni3DLを提案する。
Uni3DLは、ポイントクラウド上で直接動作する。
多様な3D視覚言語理解タスクに対して厳格に評価されている。
論文 参考訳(メタデータ) (2023-12-05T08:30:27Z) - MixCon3D: Synergizing Multi-View and Cross-Modal Contrastive Learning
for Enhancing 3D Representation [55.393631071201085]
コントラスト学習を強化するために,2次元画像と3次元点雲の相補的な情報を組み合わせたMixCon3Dを導入する。
また、3Dコントラッシブラーニングパラダイムのための様々なトレーニングレシピの徹底的な研究の先駆者となった。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D
Visual Grounding [15.617150859765024]
我々はTransformerを、置換不変な3次元点群データに対する自然な適合性に活用する。
本稿では,エンティティとリレーショナルを意識したマルチモーダルコンテキストを抽出するTransRefer3Dネットワークを提案する。
提案手法は既存手法を最大10.6%上回る性能を示した。
論文 参考訳(メタデータ) (2021-08-05T05:47:12Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。