論文の概要: Contextual Modeling for 3D Dense Captioning on Point Clouds
- arxiv url: http://arxiv.org/abs/2210.03925v1
- Date: Sat, 8 Oct 2022 05:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:10:38.910573
- Title: Contextual Modeling for 3D Dense Captioning on Point Clouds
- Title(参考訳): 点雲における3次元Dense Captioningのコンテキストモデリング
- Authors: Yufeng Zhong, Long Xu, Jiebo Luo, Lin Ma
- Abstract要約: 3Dの高密度キャプションは、新しい視覚言語タスクとして、一組の点雲から各物体を識別し、発見することを目的としている。
我々は,GCM(Global Context Modeling)とLCM(Local Context Modeling)の2つのモジュールを粗い方法で提案する。
提案モデルでは,オブジェクト表現とコンテキスト情報を効果的に特徴付けることができる。
- 参考スコア(独自算出の注目度): 85.68339840274857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D dense captioning, as an emerging vision-language task, aims to identify
and locate each object from a set of point clouds and generate a distinctive
natural language sentence for describing each located object. However, the
existing methods mainly focus on mining inter-object relationship, while
ignoring contextual information, especially the non-object details and
background environment within the point clouds, thus leading to low-quality
descriptions, such as inaccurate relative position information. In this paper,
we make the first attempt to utilize the point clouds clustering features as
the contextual information to supply the non-object details and background
environment of the point clouds and incorporate them into the 3D dense
captioning task. We propose two separate modules, namely the Global Context
Modeling (GCM) and Local Context Modeling (LCM), in a coarse-to-fine manner to
perform the contextual modeling of the point clouds. Specifically, the GCM
module captures the inter-object relationship among all objects with global
contextual information to obtain more complete scene information of the whole
point clouds. The LCM module exploits the influence of the neighboring objects
of the target object and local contextual information to enrich the object
representations. With such global and local contextual modeling strategies, our
proposed model can effectively characterize the object representations and
contextual information and thereby generate comprehensive and detailed
descriptions of the located objects. Extensive experiments on the ScanRefer and
Nr3D datasets demonstrate that our proposed method sets a new record on the 3D
dense captioning task, and verify the effectiveness of our raised contextual
modeling of point clouds.
- Abstract(参考訳): 3D高密度キャプションは視覚言語タスクとして,一組の点群から各物体を識別し,特定することを目的としており,それぞれの位置を記述するための特異な自然言語文を生成する。
しかし, 既存の手法では, 対象間関係のマイニングに主眼を置き, 文脈情報, 特に点群内の非対象詳細情報や背景環境を無視して, 不正確な相対的位置情報などの低品質な記述に繋がる。
本稿では,ポイントクラウドの非対象的詳細と背景環境を提供するためのコンテキスト情報として,ポイントクラウドクラスタリング機能を初めて活用し,これらを3次元高密度キャプションタスクに組み込む。
本稿では,グローバル・コンテクスト・モデリング(gcm)とローカル・コンテクスト・モデリング(lcm)という2つのモジュールを提案する。
特に、gcmモジュールは、全オブジェクト間のオブジェクト間関係をグローバルコンテキスト情報でキャプチャし、ポイントクラウド全体のより完全なシーン情報を取得する。
LCMモジュールは、対象オブジェクトの隣接オブジェクトとローカルコンテキスト情報の影響を利用して、オブジェクト表現を豊かにする。
このようなグローバルかつ局所的なコンテキストモデリング戦略により、提案モデルはオブジェクト表現とコンテキスト情報を効果的に特徴付けることができ、それによって位置するオブジェクトの包括的かつ詳細な記述を生成することができる。
ScanRefer と Nr3D データセットの大規模な実験により,提案手法が3次元高密度キャプションタスクに新たな記録を設定し,点雲の文脈モデルの有効性を検証した。
関連論文リスト
- Bi-directional Contextual Attention for 3D Dense Captioning [38.022425401910894]
3Dシークエンスキャプションは、オブジェクトのローカライゼーションと、各オブジェクトの3Dシーンにおける記述の生成を含むタスクである。
最近のアプローチでは、オブジェクトペアとの関係をモデル化したり、オブジェクトの最も近い特徴を集約したりすることで、コンテキスト情報を組み込もうとしている。
変換器エンコーダ・デコーダパイプラインであるBiCAを導入し,2方向コンテキストアテンションを持つ各オブジェクトに対して3次元の高密度キャプションを行う。
論文 参考訳(メタデータ) (2024-08-13T06:25:54Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud [39.055928838826226]
3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。
豊かな構造と長距離句相関を捉えるための言語シーングラフモジュールを提案する。
次に,オブジェクト-オブジェクト間およびオブジェクト-シーン間共起関係を抽出するために,多レベル3次元提案関係グラフモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-30T14:22:36Z) - MLCVNet: Multi-Level Context VoteNet for 3D Object Detection [51.45832752942529]
我々は,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのマルチレベルコンテキストVoteNet(MLCVNet)を提案する。
異なるレベルのコンテキスト情報をエンコードするために,VoteNetの投票・分類段階に3つのコンテキストモジュールを導入する。
本手法は,3次元物体検出データセットの精度向上に有効な手法である。
論文 参考訳(メタデータ) (2020-04-12T19:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。