論文の概要: See It All: Contextualized Late Aggregation for 3D Dense Captioning
- arxiv url: http://arxiv.org/abs/2408.07648v1
- Date: Wed, 14 Aug 2024 16:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:43:33.279373
- Title: See It All: Contextualized Late Aggregation for 3D Dense Captioning
- Title(参考訳): 3Dディエンス・キャプションのためのコンテクスト化されたラテンアグリゲーション
- Authors: Minjung Kim, Hyung Suk Lim, Seung Hwan Kim, Soonyoung Lee, Bumsoo Kim, Gunhee Kim,
- Abstract要約: 3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
- 参考スコア(独自算出の注目度): 38.14179122810755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D dense captioning is a task to localize objects in a 3D scene and generate descriptive sentences for each object. Recent approaches in 3D dense captioning have adopted transformer encoder-decoder frameworks from object detection to build an end-to-end pipeline without hand-crafted components. However, these approaches struggle with contradicting objectives where a single query attention has to simultaneously view both the tightly localized object regions and contextual environment. To overcome this challenge, we introduce SIA (See-It-All), a transformer pipeline that engages in 3D dense captioning with a novel paradigm called late aggregation. SIA simultaneously decodes two sets of queries-context query and instance query. The instance query focuses on localization and object attribute descriptions, while the context query versatilely captures the region-of-interest of relationships between multiple objects or with the global scene, then aggregated afterwards (i.e., late aggregation) via simple distance-based measures. To further enhance the quality of contextualized caption generation, we design a novel aggregator to generate a fully informed caption based on the surrounding context, the global environment, and object instances. Extensive experiments on two of the most widely-used 3D dense captioning datasets demonstrate that our proposed method achieves a significant improvement over prior methods.
- Abstract(参考訳): 3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
しかし、これらのアプローチは、単一のクエリ注意が、厳密な局所化されたオブジェクト領域とコンテキスト環境の両方を同時に見る必要があるという、矛盾する目的に苦慮している。
この課題を克服するために,SIA (See-It-All) は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
SIAは、クエリ-コンテキストクエリとインスタンスクエリの2つのセットを同時にデコードする。
インスタンスクエリは、ローカライゼーションとオブジェクト属性の記述に焦点を当て、コンテキストクエリは、複数のオブジェクトまたはグローバルなシーン間の関係の領域を多目的にキャプチャし、その後、単純な距離ベースの測定によって(すなわち、遅延集約)集約する。
文脈化キャプション生成の質をさらに高めるため,周囲のコンテキスト,グローバル環境,オブジェクトインスタンスに基づいて,完全に情報を得たキャプションを生成する新しいアグリゲータを設計する。
最も広く使われている2つの3次元高密度キャプションデータセットに対する大規模な実験により,提案手法が従来の手法よりも大幅に改善されたことを示す。
関連論文リスト
- Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。
本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - Bi-directional Contextual Attention for 3D Dense Captioning [38.022425401910894]
3Dシークエンスキャプションは、オブジェクトのローカライゼーションと、各オブジェクトの3Dシーンにおける記述の生成を含むタスクである。
最近のアプローチでは、オブジェクトペアとの関係をモデル化したり、オブジェクトの最も近い特徴を集約したりすることで、コンテキスト情報を組み込もうとしている。
変換器エンコーダ・デコーダパイプラインであるBiCAを導入し,2方向コンテキストアテンションを持つ各オブジェクトに対して3次元の高密度キャプションを行う。
論文 参考訳(メタデータ) (2024-08-13T06:25:54Z) - GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End
3D Dense Captioning [37.44886367452029]
3Dシークエンスキャプションは、入力された3Dシーンの理解を、異なるオブジェクト領域に関連する複数のキャプションに変換するモデルを必要とする。
既存の手法では洗練された"detect-then-describe"パイプラインを採用しており、多数の手作り部品を持つ3D検出器上に明示的な関係モジュールを構築する。
まず,キャプション生成のデコード処理と並列デコードによるオブジェクトローカライゼーションを分離する,単純なyet効率のトランスフォーマフレームワークであるVote2Cap-DETRを提案する。
論文 参考訳(メタデータ) (2023-09-06T13:43:27Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。