Fugu-MT 論文翻訳(概要): Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization

論文の概要: Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization

arxiv url: http://arxiv.org/abs/2404.11064v1
Date: Wed, 17 Apr 2024 04:46:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 15:14:36.521483
Title: Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization
Title（参考訳）: Prompt-based Localization による一元化フレームワークにおける3次元Dense Caption と Visual Grounding の再考
Authors: Yongdong Luo, Haojia Lin, Xiawu Zheng, Yigeng Jiang, Fei Chao, Jie Hu, Guannan Jiang, Songan Zhang, Rongrong Ji,
Abstract要約: 3Dビジュアルグラウンド(3DVG)と3Dキャプション(3DDC)は、様々な3Dアプリケーションにおいて2つの重要なタスクである。本稿では,これら2つの異なる,しかし密接に関連するタスクを協調的に解決する統合フレームワークである3DGCTRを提案する。実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として使用する。
参考スコア（独自算出の注目度）: 51.33923845954759
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D Visual Grounding (3DVG) and 3D Dense Captioning (3DDC) are two crucial tasks in various 3D applications, which require both shared and complementary information in localization and visual-language relationships. Therefore, existing approaches adopt the two-stage "detect-then-describe/discriminate" pipeline, which relies heavily on the performance of the detector, resulting in suboptimal performance. Inspired by DETR, we propose a unified framework, 3DGCTR, to jointly solve these two distinct but closely related tasks in an end-to-end fashion. The key idea is to reconsider the prompt-based localization ability of the 3DVG model. In this way, the 3DVG model with a well-designed prompt as input can assist the 3DDC task by extracting localization information from the prompt. In terms of implementation, we integrate a Lightweight Caption Head into the existing 3DVG network with a Caption Text Prompt as a connection, effectively harnessing the existing 3DVG model's inherent localization capacity, thereby boosting 3DDC capability. This integration facilitates simultaneous multi-task training on both tasks, mutually enhancing their performance. Extensive experimental results demonstrate the effectiveness of this approach. Specifically, on the ScanRefer dataset, 3DGCTR surpasses the state-of-the-art 3DDC method by 4.3% in CIDEr@0.5IoU in MLE training and improves upon the SOTA 3DVG method by 3.16% in Acc@0.25IoU.
Abstract（参考訳）: 3Dビジュアルグラウンド(3DVG)と3D Dense Captioning(3DDC)は、様々な3Dアプリケーションにおいて重要な2つのタスクであり、ローカライゼーションと視覚言語の関係において、共有情報と補完情報の両方を必要とする。したがって、既存のアプローチでは2段階の"detect-then-describe/discriminate"パイプラインを採用しており、検出器の性能に大きく依存しているため、最適以下の性能が得られる。 DETRにインスパイアされた統合フレームワークである3DGCTRを提案し、これら2つの異なる、しかし密接に関連するタスクをエンドツーエンドで共同で解決する。鍵となる考え方は、3DVGモデルの迅速な位置決め能力を再考することである。このように、入力として適切に設計されたプロンプトを持つ3DVGモデルは、プロンプトからローカライズ情報を抽出することにより、3DDCタスクを支援することができる。実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として、既存の3DVGモデル固有のローカライゼーション能力を有効に活用し、3DDC能力を向上する。この統合により、両タスクの同時マルチタスクトレーニングが促進され、パフォーマンスが相互に向上する。大規模な実験結果から,このアプローチの有効性が示された。具体的には、ScanReferデータセットにおいて、3DGCTRは、MLEトレーニングにおけるCIDEr@0.5IoUの4.3%の最先端3DDC法を上回り、Acc@0.25IoUの3.16%のSOTA 3DVG法を改善する。

関連論文リスト

TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [34.99141865569255]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文参考訳（メタデータ） (2025-07-20T10:28:06Z)
TeDA: Boosting Vision-Lanuage Models for Zero-Shot 3D Object Retrieval via Testing-time Distribution Alignment [14.535056813802527]
テスト時間分布アライメント(TeDA)は、テスト時に未知の3次元オブジェクトの検索に事前訓練された2次元視覚言語モデルCLIPを適用する新しいフレームワークである。 TeDAは3Dオブジェクトをマルチビューイメージに投影し、CLIPを使って機能を抽出し、3Dクエリの埋め込みを洗練する。 4つのオープンセットの3Dオブジェクト検索ベンチマークの実験により、TeDAは最先端の手法を大幅に上回ることを示した。
論文参考訳（メタデータ） (2025-05-05T02:47:07Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2024-11-29T08:52:32Z)
Unifying 3D Vision-Language Understanding via Promptable Queries [39.55438547712157]
3次元視覚言語(3D-VL)理解のための統一モデル。 PQ3DはPromptable Queriesを使用して、幅広い3D-VLタスクに取り組むことができる。 10の多様な3D-VLデータセットでテストされたPQ3Dは、これらのタスクにおける印象的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-05-19T04:35:05Z)
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。コードと事前訓練されたモデルは、後にリリースされる。
論文参考訳（メタデータ） (2024-03-28T17:05:04Z)
Regulating Intermediate 3D Features for Vision-Centric Autonomous Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。 Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文参考訳（メタデータ） (2023-12-19T04:09:05Z)
A Unified Framework for 3D Point Cloud Visual Grounding [60.75319271082741]
本稿では,3DREC と 3DRES を 3DRefTR という統合フレームワークに統合する取り組みについて述べる。その鍵となるアイデアは、成熟した3DRECモデルの上に構築し、3DRECモデルから用意されたクエリ埋め込みとビジュアルトークンを活用して、専用のマスクブランチを構築することである。この精巧な設計により、3DRefTRは3DRESと3DRECのキャパシティの両方を、元の3DRECモデルと比較して6%のレイテンシで達成できる。
論文参考訳（メタデータ） (2023-08-23T03:20:31Z)
CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文参考訳（メタデータ） (2022-10-09T13:38:48Z)
Improving 3D Object Detection with Channel-wise Transformer [58.668922561622466]
我々は手作りの最小限の設計で2段階の3Dオブジェクト検出フレームワーク(CT3D)を提案する。 CT3Dは、提案対応の埋め込みとチャンネルワイドコンテキストアグリゲーションを同時に行う。これはKITTIテスト3D検出ベンチマークで中等車カテゴリーで81.77%のAPを達成した。
論文参考訳（メタデータ） (2021-08-23T02:03:40Z)
Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。 Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文参考訳（メタデータ） (2020-09-22T14:17:40Z)
D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文参考訳（メタデータ） (2020-03-06T12:51:09Z)
SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。 SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文参考訳（メタデータ） (2020-02-24T08:15:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。