論文の概要: DDS: Decoupled Dynamic Scene-Graph Generation Network
- arxiv url: http://arxiv.org/abs/2301.07666v2
- Date: Mon, 20 Jan 2025 18:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:16:52.147846
- Title: DDS: Decoupled Dynamic Scene-Graph Generation Network
- Title(参考訳): DDS: 動的シーングラフ生成ネットワークの分離
- Authors: A S M Iftekhar, Raphael Ruschel, Satish Kumar, Suya You, B. S. Manjunath,
- Abstract要約: シーングラフ生成は、シーン内のオブジェクト間の関係の構造的表現を作成する。
本稿では,2つの独立分枝からなる分離された動的シーングラフ生成ネットワークを提案する。
このモデルは3つのデータセットで評価され、特にそれまで見られなかった三つ子の検出において、従来の手法よりも大きなマージンで性能が向上する。
- 参考スコア(独自算出の注目度): 9.586462685772705
- License:
- Abstract: Scene-graph generation involves creating a structural representation of the relationships between objects in a scene by predicting subject-object-relation triplets from input data. Existing methods show poor performance in detecting triplets outside of a predefined set, primarily due to their reliance on dependent feature learning. To address this issue, we propose DDS -- a decoupled dynamic scene-graph generation network -- that consists of two independent branches that can disentangle extracted features. The key innovation of the current paper is the decoupling of the features representing the relationships from those of the objects, which enables the detection of novel object-relationship combinations. The DDS model is evaluated on three datasets and outperforms previous methods by a significant margin, especially in detecting previously unseen triplets.
- Abstract(参考訳): シーングラフ生成は、入力データから主観的対象関係三重項を予測することによって、シーン内のオブジェクト間の関係の構造表現を作成する。
既存の手法では、あらかじめ定義されたセットの外にある三つ子を検出する場合、主に依存的特徴学習に依存するため、性能が劣っている。
この問題に対処するために,分離された動的シーングラフ生成ネットワークであるDDSを提案する。
現在の論文の重要な革新は、オブジェクトの関係を表す特徴を分離することで、新しいオブジェクト-リレーショナルの組み合わせの検出を可能にすることである。
DDSモデルは3つのデータセットで評価され、特にそれまで見られなかった三つ子の検出において、従来の手法よりも顕著なマージンで性能が向上する。
関連論文リスト
- A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Structured Sparse R-CNN for Direct Scene Graph Generation [16.646937866282922]
本稿では,構造スパースR-CNN(Structured Sparse R-CNN)と呼ばれる,単純な,疎結合で統一された関係検出フレームワークを提案する。
提案手法の鍵となるのは,学習可能な三重項クエリと構造化三重項検出器のセットである。
我々は,ビジュアルゲノムとオープンイメージの2つのベンチマークで実験を行い,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-06-21T02:24:20Z) - Relationship-based Neural Baby Talk [10.342180619706724]
幾何学的相互作用を探索するtextitpatial relationship、意味的相互作用を抽出するtextitsemantic relationship、隠された情報をキャプチャするtextitimplicit relationshipの3つの主な関係を検討する。
提案したR-NBTモデルは,COCOデータセット上で訓練された最先端モデルよりも3つの画像キャプション生成タスクで優れる。
論文 参考訳(メタデータ) (2021-03-08T15:51:24Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。