論文の概要: MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes
- arxiv url: http://arxiv.org/abs/2203.05203v1
- Date: Thu, 10 Mar 2022 07:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:16:53.348955
- Title: MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes
- Title(参考訳): 3dシーンにおける高次キャプションのための多階関係マイニング
- Authors: Yang Jiao, Shaoxiang Chen, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang
Jiang
- Abstract要約: 既存の手法では、対象の特徴学習の副産物のような関係を、特にそれを符号化することなく扱うことができる。
より記述的で包括的なキャプションを生成するためのマルチオーダーリレーションマイニングモデルMOREを提案する。
我々のMOREは、複雑な関係を限られた数の基本関係から導出できるため、進行的にオブジェクト関係を符号化する。
- 参考スコア(独自算出の注目度): 89.75025195440287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D dense captioning is a recently-proposed novel task, where point clouds
contain more geometric information than the 2D counterpart. However, it is also
more challenging due to the higher complexity and wider variety of inter-object
relations. Existing methods only treat such relations as by-products of object
feature learning in graphs without specifically encoding them, which leads to
sub-optimal results. In this paper, aiming at improving 3D dense captioning via
capturing and utilizing the complex relations in the 3D scene, we propose MORE,
a Multi-Order RElation mining model, to support generating more descriptive and
comprehensive captions. Technically, our MORE encodes object relations in a
progressive manner since complex relations can be deduced from a limited number
of basic ones. We first devise a novel Spatial Layout Graph Convolution (SLGC),
which semantically encodes several first-order relations as edges of a graph
constructed over 3D object proposals. Next, from the resulting graph, we
further extract multiple triplets which encapsulate basic first-order relations
as the basic unit and construct several Object-centric Triplet Attention Graphs
(OTAG) to infer multi-order relations for every target object. The updated node
features from OTAG are aggregated and fed into the caption decoder to provide
abundant relational cues so that captions including diverse relations with
context objects can be generated. Extensive experiments on the Scan2Cap dataset
prove the effectiveness of our proposed MORE and its components, and we also
outperform the current state-of-the-art method.
- Abstract(参考訳): 3D高密度キャプションは、最近提案された新しいタスクであり、ポイント雲は2Dよりも幾何的な情報を含んでいる。
しかし、複雑さが増し、オブジェクト間の関係がより多様になるため、さらに困難である。
既存の手法では、グラフでオブジェクト特徴学習の副産物として扱うだけで、それを特別にエンコードすることなく、結果として最適以下の結果が得られる。
本稿では,3次元シーンの複雑な関係を捕捉・活用して3次元高密度キャプションを改善することを目的として,より記述的で包括的なキャプションの生成を支援するマルチオーダーリレーションマイニングモデルMOREを提案する。
技術的には、MOREは複雑な関係を少数の基本関係から導出できるため、オブジェクト関係を進行的に符号化する。
まず,3次元オブジェクトの提案に基づいて構築されたグラフのエッジとして,複数の一階関係を意味的に符号化する空間レイアウトグラフ畳み込み(SLGC)を提案する。
次に、得られたグラフから基本一階関係を包含する複数の三重項を基本単位として抽出し、対象オブジェクト毎に多元関係を推定するオブジェクト中心三重項注意グラフ(otag)を構築する。
OTAGから更新されたノードの特徴を集約してキャプションデコーダに入力し、コンテクストオブジェクトとの多様な関係を含むキャプションを生成する。
scan2capデータセットに関する広範な実験により,提案する more とそのコンポーネントの有効性が証明された。
関連論文リスト
- SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Explore Contextual Information for 3D Scene Graph Generation [43.66442227874461]
3次元シーングラフ生成(SGG)はコンピュータビジョンに大きな関心を寄せている。
本稿では,3次元SGGタスクのコンテキスト情報を完全に探索するフレームワークを提案する。
提案手法は,従来の3DSSGデータセットの手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-12T14:26:17Z) - PolarMOT: How Far Can Geometric Relations Take Us in 3D Multi-Object
Tracking? [62.997667081978825]
グラフのノードとして3D検出を符号化し、グラフエッジ上の局所極座標を用いてオブジェクト間の空間的および時間的対関係を符号化する。
これにより、グラフニューラルネットワークは、時間的および空間的相互作用を効果的に符号化することができる。
我々はnuScenesデータセット上に新しい最先端のデータセットを構築し、さらに重要なことに、私たちの手法であるPolarMOTが、異なる場所にわたって驚くほどよく一般化されていることを示す。
論文 参考訳(メタデータ) (2022-08-03T10:06:56Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud [39.055928838826226]
3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。
豊かな構造と長距離句相関を捉えるための言語シーングラフモジュールを提案する。
次に,オブジェクト-オブジェクト間およびオブジェクト-シーン間共起関係を抽出するために,多レベル3次元提案関係グラフモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-30T14:22:36Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。