論文の概要: Bi-directional Contextual Attention for 3D Dense Captioning
- arxiv url: http://arxiv.org/abs/2408.06662v1
- Date: Tue, 13 Aug 2024 06:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:26:42.307411
- Title: Bi-directional Contextual Attention for 3D Dense Captioning
- Title(参考訳): 3次元Dense Captioningのための双方向コンテキストアテンション
- Authors: Minjung Kim, Hyung Suk Lim, Soonyoung Lee, Bumsoo Kim, Gunhee Kim,
- Abstract要約: 3Dシークエンスキャプションは、オブジェクトのローカライゼーションと、各オブジェクトの3Dシーンにおける記述の生成を含むタスクである。
最近のアプローチでは、オブジェクトペアとの関係をモデル化したり、オブジェクトの最も近い特徴を集約したりすることで、コンテキスト情報を組み込もうとしている。
変換器エンコーダ・デコーダパイプラインであるBiCAを導入し,2方向コンテキストアテンションを持つ各オブジェクトに対して3次元の高密度キャプションを行う。
- 参考スコア(独自算出の注目度): 38.022425401910894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D dense captioning is a task involving the localization of objects and the generation of descriptions for each object in a 3D scene. Recent approaches have attempted to incorporate contextual information by modeling relationships with object pairs or aggregating the nearest neighbor features of an object. However, the contextual information constructed in these scenarios is limited in two aspects: first, objects have multiple positional relationships that exist across the entire global scene, not only near the object itself. Second, it faces with contradicting objectives--where localization and attribute descriptions are generated better with tight localization, while descriptions involving global positional relations are generated better with contextualized features of the global scene. To overcome this challenge, we introduce BiCA, a transformer encoder-decoder pipeline that engages in 3D dense captioning for each object with Bi-directional Contextual Attention. Leveraging parallelly decoded instance queries for objects and context queries for non-object contexts, BiCA generates object-aware contexts, where the contexts relevant to each object is summarized, and context-aware objects, where the objects relevant to the summarized object-aware contexts are aggregated. This extension relieves previous methods from the contradicting objectives, enhancing both localization performance and enabling the aggregation of contextual features throughout the global scene; thus improving caption generation performance simultaneously. Extensive experiments on two of the most widely-used 3D dense captioning datasets demonstrate that our proposed method achieves a significant improvement over prior methods.
- Abstract(参考訳): 3Dシークエンスキャプションは、オブジェクトのローカライゼーションと、各オブジェクトの3Dシーンにおける記述の生成を含むタスクである。
最近のアプローチでは、オブジェクトペアとの関係をモデル化したり、オブジェクトの最も近い特徴を集約したりすることで、コンテキスト情報を組み込もうとしている。
しかし、これらのシナリオで構築されるコンテキスト情報は2つの側面に制限されている: まず、オブジェクトは、オブジェクト自身だけでなく、グローバルシーン全体にわたって存在する複数の位置関係を持つ。
第2に,グローバルな位置関係を含む記述はグローバルなシーンの文脈的特徴によってより良く生成される一方で,局所化や属性記述は密な位置化によってより良く生成される。
この課題を克服するために,双方向のコンテキストアテンションを持つ各オブジェクトに対して3次元の高密度キャプションを行うトランスフォーマーエンコーダデコーダパイプラインであるBiCAを導入する。
オブジェクトの並列デコードされたインスタンスクエリと非オブジェクトコンテキストのコンテキストクエリを活用して、BiCAは、オブジェクトに関連するコンテキストを要約するオブジェクト認識コンテキストと、要約されたオブジェクト認識コンテキストに関連するオブジェクトを集約するコンテキスト認識オブジェクトを生成する。
この拡張により、従来の手法が矛盾する目的から解放され、ローカライゼーション性能が向上し、グローバルシーン全体のコンテキスト特徴の集約が可能となり、同時にキャプション生成性能が向上する。
最も広く使われている2つの3次元高密度キャプションデータセットに対する大規模な実験により,提案手法が従来の手法よりも大幅に改善されたことを示す。
関連論文リスト
- See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文 参考訳(メタデータ) (2024-08-14T16:19:18Z) - PD-APE: A Parallel Decoding Framework with Adaptive Position Encoding for 3D Visual Grounding [20.422852022310945]
3Dビジュアルグラウンドは、特定の自然言語記述にマッチする3Dポイントクラウドシーン内のオブジェクトを特定することを目的としている。
これは、モデルが対象のオブジェクト自体にフォーカスするだけでなく、周囲の環境も考慮する必要がある。
本稿では,対象オブジェクト属性と周辺レイアウトを別々にデコードするデュアルブランチデコーディングフレームワークPD-APEを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:44:33Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Contextual Modeling for 3D Dense Captioning on Point Clouds [85.68339840274857]
3Dの高密度キャプションは、新しい視覚言語タスクとして、一組の点雲から各物体を識別し、発見することを目的としている。
我々は,GCM(Global Context Modeling)とLCM(Local Context Modeling)の2つのモジュールを粗い方法で提案する。
提案モデルでは,オブジェクト表現とコンテキスト情報を効果的に特徴付けることができる。
論文 参考訳(メタデータ) (2022-10-08T05:33:00Z) - O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable
Video Captioning [41.14313691818424]
ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。
O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。
MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
論文 参考訳(メタデータ) (2021-08-05T04:17:20Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。