論文の概要: MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes
- arxiv url: http://arxiv.org/abs/2203.05203v1
- Date: Thu, 10 Mar 2022 07:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:16:53.348955
- Title: MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes
- Title(参考訳): 3dシーンにおける高次キャプションのための多階関係マイニング
- Authors: Yang Jiao, Shaoxiang Chen, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang
Jiang
- Abstract要約: 既存の手法では、対象の特徴学習の副産物のような関係を、特にそれを符号化することなく扱うことができる。
より記述的で包括的なキャプションを生成するためのマルチオーダーリレーションマイニングモデルMOREを提案する。
我々のMOREは、複雑な関係を限られた数の基本関係から導出できるため、進行的にオブジェクト関係を符号化する。
- 参考スコア(独自算出の注目度): 89.75025195440287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D dense captioning is a recently-proposed novel task, where point clouds
contain more geometric information than the 2D counterpart. However, it is also
more challenging due to the higher complexity and wider variety of inter-object
relations. Existing methods only treat such relations as by-products of object
feature learning in graphs without specifically encoding them, which leads to
sub-optimal results. In this paper, aiming at improving 3D dense captioning via
capturing and utilizing the complex relations in the 3D scene, we propose MORE,
a Multi-Order RElation mining model, to support generating more descriptive and
comprehensive captions. Technically, our MORE encodes object relations in a
progressive manner since complex relations can be deduced from a limited number
of basic ones. We first devise a novel Spatial Layout Graph Convolution (SLGC),
which semantically encodes several first-order relations as edges of a graph
constructed over 3D object proposals. Next, from the resulting graph, we
further extract multiple triplets which encapsulate basic first-order relations
as the basic unit and construct several Object-centric Triplet Attention Graphs
(OTAG) to infer multi-order relations for every target object. The updated node
features from OTAG are aggregated and fed into the caption decoder to provide
abundant relational cues so that captions including diverse relations with
context objects can be generated. Extensive experiments on the Scan2Cap dataset
prove the effectiveness of our proposed MORE and its components, and we also
outperform the current state-of-the-art method.
- Abstract(参考訳): 3D高密度キャプションは、最近提案された新しいタスクであり、ポイント雲は2Dよりも幾何的な情報を含んでいる。
しかし、複雑さが増し、オブジェクト間の関係がより多様になるため、さらに困難である。
既存の手法では、グラフでオブジェクト特徴学習の副産物として扱うだけで、それを特別にエンコードすることなく、結果として最適以下の結果が得られる。
本稿では,3次元シーンの複雑な関係を捕捉・活用して3次元高密度キャプションを改善することを目的として,より記述的で包括的なキャプションの生成を支援するマルチオーダーリレーションマイニングモデルMOREを提案する。
技術的には、MOREは複雑な関係を少数の基本関係から導出できるため、オブジェクト関係を進行的に符号化する。
まず,3次元オブジェクトの提案に基づいて構築されたグラフのエッジとして,複数の一階関係を意味的に符号化する空間レイアウトグラフ畳み込み(SLGC)を提案する。
次に、得られたグラフから基本一階関係を包含する複数の三重項を基本単位として抽出し、対象オブジェクト毎に多元関係を推定するオブジェクト中心三重項注意グラフ(otag)を構築する。
OTAGから更新されたノードの特徴を集約してキャプションデコーダに入力し、コンテクストオブジェクトとの多様な関係を含むキャプションを生成する。
scan2capデータセットに関する広範な実験により,提案する more とそのコンポーネントの有効性が証明された。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph [0.3926357402982764]
本稿では,メカニカルエッジとセマンティックエッジを用いた3次元シーングラフ表現を構築するBBQというモジュラーアプローチを提案する。
BBQは、3Dオブジェクト中心のマップを構築するために、堅牢なDINO対応のアソシエーションを使用している。
BBQは,他のゼロショット法と比較して,オープンな3次元セマンティックセマンティックセマンティックセグメンテーションにおいて中心的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:57:04Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge [7.28830964611216]
この研究は、関係階層とコモンセンス知識の両方によってシーングラフを生成するための拡張されたアプローチを導入する。
我々は,シーングラフ予測システムから結果を批判するために基礎モデルを活用する,堅牢なコモンセンス検証パイプラインを実装した。
Visual GenomeとOpenImage V6データセットの実験では、既存のシーングラフ生成アルゴリズムのプラグインとプレイの拡張として、提案されたモジュールをシームレスに統合できることが示されている。
論文 参考訳(メタデータ) (2023-11-21T06:03:20Z) - PolarMOT: How Far Can Geometric Relations Take Us in 3D Multi-Object
Tracking? [62.997667081978825]
グラフのノードとして3D検出を符号化し、グラフエッジ上の局所極座標を用いてオブジェクト間の空間的および時間的対関係を符号化する。
これにより、グラフニューラルネットワークは、時間的および空間的相互作用を効果的に符号化することができる。
我々はnuScenesデータセット上に新しい最先端のデータセットを構築し、さらに重要なことに、私たちの手法であるPolarMOTが、異なる場所にわたって驚くほどよく一般化されていることを示す。
論文 参考訳(メタデータ) (2022-08-03T10:06:56Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud [39.055928838826226]
3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。
豊かな構造と長距離句相関を捉えるための言語シーングラフモジュールを提案する。
次に,オブジェクト-オブジェクト間およびオブジェクト-シーン間共起関係を抽出するために,多レベル3次元提案関係グラフモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-30T14:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。