Fugu-MT 論文翻訳(概要): UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding

論文の概要: UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding

arxiv url: http://arxiv.org/abs/2212.00836v1
Date: Thu, 1 Dec 2022 19:45:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-05 16:39:45.373909
Title: UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding
Title（参考訳）: UniT3D:3Dディエンスキャプションと視覚グラウンドのための統一トランス
Authors: Dave Zhenyu Chen, Ronghang Hu, Xinlei Chen, Matthias Nie{\ss}ner, Angel X. Chang
Abstract要約: 3Dの密接なキャプションと視覚的接地を行うには、基礎となるマルチモーダル関係の共通かつ共有的な理解が必要である。我々は3次元視覚的接地と密接なキャプションを共同で解くためのトランスフォーマーベースアーキテクチャUniT3Dを提案する。
参考スコア（独自算出の注目度）: 41.15622591021133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Performing 3D dense captioning and visual grounding requires a common and shared understanding of the underlying multimodal relationships. However, despite some previous attempts on connecting these two related tasks with highly task-specific neural modules, it remains understudied how to explicitly depict their shared nature to learn them simultaneously. In this work, we propose UniT3D, a simple yet effective fully unified transformer-based architecture for jointly solving 3D visual grounding and dense captioning. UniT3D enables learning a strong multimodal representation across the two tasks through a supervised joint pre-training scheme with bidirectional and seq-to-seq objectives. With a generic architecture design, UniT3D allows expanding the pre-training scope to more various training sources such as the synthesized data from 2D prior knowledge to benefit 3D vision-language tasks. Extensive experiments and analysis demonstrate that UniT3D obtains significant gains for 3D dense captioning and visual grounding.
Abstract（参考訳）: 3次元の密接なキャプションと視覚的接地を行うには、基礎となるマルチモーダル関係の共通かつ共有的な理解が必要である。しかしながら、これらの2つの関連するタスクを高いタスク固有のニューラルモジュールに接続する以前の試みにもかかわらず、共有された性質を明示的に表現して同時に学習する方法はまだ検討されていない。本研究では,3次元視覚接地と密接なキャプションを共同で解くための,完全統一トランスフォーマーアーキテクチャであるunit3dを提案する。 unit3dは双方向およびseq-to-seq目的の教師付き事前学習スキームを通じて、2つのタスクにまたがる強力なマルチモーダル表現を学習できる。汎用アーキテクチャ設計により、UniT3Dは事前学習範囲を2D事前知識から合成されたデータなど、より多様なトレーニングソースに拡大し、3Dビジョン言語タスクの恩恵を受けることができる。広汎な実験と解析により、UniT3Dは3D高密度キャプションと視覚的グラウンドニングにおいて大きな利益を得ることが示された。

関連論文リスト

SIU3R: Simultaneous Scene Understanding and 3D Reconstruction Beyond Feature Alignment [11.586275116426442]
エンド・ツー・エンドのインボディード・インボディード・システム開発において,同時理解と3次元再構築が重要な役割を担っている。提案するSIU3Rは,非ポーズ画像からの一般化可能な同時理解と3次元再構成のための,アライメントのない最初のフレームワークである。
論文参考訳（メタデータ） (2025-07-03T15:15:21Z)
3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文参考訳（メタデータ） (2025-06-11T15:56:59Z)
AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。本稿では,関係認識のためのオブジェクト識別を伴う意味空間のシーングラフを構築する2次元視覚的グラウンドティングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-07T02:02:15Z)
Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction Tuning [18.185457833299235]
本稿では,複数の3次元シーン理解タスクを同時に扱うために,インスタンス対応3次元大規模マルチモーダルモデル(Inst3D-LMM)を提案する。まず,MCMF(Multi-view Cross-Modal Fusion)モジュールを導入し,それに対応する幾何学的特徴に多視点2Dセマンティクスを注入する。シーンレベルの関係対応トークンに対しては、オブジェクト間の複雑な対空間関係をキャプチャするための3次元インスタンス空間関係(3D-ISR)モジュールをさらに提示する。
論文参考訳（メタデータ） (2025-03-01T14:38:42Z)
UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting [68.37013525040891]
マルチモーダルプレトレーニングに3Dガウススティング(3DGS)を組み込んだUniGSを提案する。より汎用的で強力なマルチモーダル表現の学習におけるUniGSの有効性を実証する。
論文参考訳（メタデータ） (2025-02-25T05:10:22Z)
Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。 MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文参考訳（メタデータ） (2024-07-19T03:43:48Z)
InstructLayout: Instruction-Driven 2D and 3D Layout Synthesis with Semantic Graph Prior [23.536285325566013]
自然言語命令を補完することは、2Dおよび3Dレイアウト合成システムにとって魅力的な特性である。既存の手法は、オブジェクトの関節分布を暗黙的にモデル化し、オブジェクトの関係を表現し、生成物の可制御性合成システムを妨げる。 Instructは、セマンティックグラフとレイアウトデコーダを統合した、新しい生成フレームワークである。
論文参考訳（メタデータ） (2024-07-10T12:13:39Z)
A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統合された3Dシーン理解フレームワークである。単一のモデル内で、パノプティクス、セマンティック、インスタンス、インタラクティブ、参照、オープンボキャブラリセグメンテーションタスクを達成する。
論文参考訳（メタデータ） (2024-07-03T16:50:07Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。コードと事前訓練されたモデルは、後にリリースされる。
論文参考訳（メタデータ） (2024-03-28T17:05:04Z)
Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文参考訳（メタデータ） (2023-10-02T08:49:56Z)
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文参考訳（メタデータ） (2023-06-04T11:08:53Z)
TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D Visual Grounding [15.617150859765024]
我々はTransformerを、置換不変な3次元点群データに対する自然な適合性に活用する。本稿では,エンティティとリレーショナルを意識したマルチモーダルコンテキストを抽出するTransRefer3Dネットワークを提案する。提案手法は既存手法を最大10.6%上回る性能を示した。
論文参考訳（メタデータ） (2021-08-05T05:47:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。