Fugu-MT 論文翻訳(概要): DDS: Decoupled Dynamic Scene-Graph Generation Network

論文の概要: DDS: Decoupled Dynamic Scene-Graph Generation Network

arxiv url: http://arxiv.org/abs/2301.07666v1
Date: Wed, 18 Jan 2023 17:20:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-19 15:15:33.462588
Title: DDS: Decoupled Dynamic Scene-Graph Generation Network
Title（参考訳）: DDS: 動的シーングラフ生成ネットワークの分離
Authors: A S M Iftekhar, Raphael Ruschel, Satish Kumar, Suya You, B.S. Manjunath
Abstract要約: シーングラフ生成は、入力データから主観的オブジェクト相関三重項を予測することによって、シーン内のオブジェクト間の関係の構造表現を作成する。既存の手法では、主に特徴学習に依存しているため、シーン外の三重項を検出する際の性能が劣っている。本稿では2つの独立分枝からなる分離された動的シーングラフ生成ネットワークを提案する。このモデルは3つのデータセットで評価され、特にそれまで見られなかった三つ子の検出において、従来の手法よりも大きなマージンで性能が向上する。
参考スコア（独自算出の注目度）: 14.520462280911342
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scene-graph generation involves creating a structural representation of the relationships between objects in a scene by predicting subject-object-relation triplets from input data. However, existing methods show poor performance in detecting triplets outside of a predefined set, primarily due to their reliance on dependent feature learning. To address this issue we propose DDS -- a decoupled dynamic scene-graph generation network -- that consists of two independent branches that can disentangle extracted features. The key innovation of the current paper is the decoupling of the features representing the relationships from those of the objects, which enables the detection of novel object-relationship combinations. The DDS model is evaluated on three datasets and outperforms previous methods by a significant margin, especially in detecting previously unseen triplets.
Abstract（参考訳）: シーングラフ生成は、入力データから主観的対象関係三重項を予測することによって、シーン内のオブジェクト間の関係の構造表現を作成する。しかし,既存の手法では,主に特徴学習に依存しているため,事前に定義されたセット外の三重項の検出性能が低かった。この問題に対処するため、我々は、抽出された特徴を分離できる2つの独立したブランチからなる、分離された動的シーングラフ生成ネットワークであるddsを提案する。現在の論文の重要な革新は、オブジェクトの関係を表す特徴を分離することで、新しいオブジェクト-関係の組み合わせの検出を可能にすることである。 ddsモデルは3つのデータセットで評価され、特に未発見の三重項検出において、以前の手法をかなりのマージンで上回っている。

関連論文リスト

DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
Generalized Visual Relation Detection with Diffusion Models [94.62313788626128]
視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
論文参考訳（メタデータ） (2025-04-16T14:03:24Z)
A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。 D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文参考訳（メタデータ） (2024-09-03T16:30:48Z)
Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文参考訳（メタデータ） (2023-07-01T13:53:14Z)
3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文参考訳（メタデータ） (2022-11-01T20:59:38Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文参考訳（メタデータ） (2022-02-22T11:36:49Z)
Structured Sparse R-CNN for Direct Scene Graph Generation [16.646937866282922]
本稿では,構造スパースR-CNN(Structured Sparse R-CNN)と呼ばれる,単純な,疎結合で統一された関係検出フレームワークを提案する。提案手法の鍵となるのは,学習可能な三重項クエリと構造化三重項検出器のセットである。我々は,ビジュアルゲノムとオープンイメージの2つのベンチマークで実験を行い,本手法が最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-06-21T02:24:20Z)
Relationship-based Neural Baby Talk [10.342180619706724]
幾何学的相互作用を探索するtextitpatial relationship、意味的相互作用を抽出するtextitsemantic relationship、隠された情報をキャプチャするtextitimplicit relationshipの3つの主な関係を検討する。提案したR-NBTモデルは,COCOデータセット上で訓練された最先端モデルよりも3つの画像キャプション生成タスクで優れる。
論文参考訳（メタデータ） (2021-03-08T15:51:24Z)
PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文参考訳（メタデータ） (2020-12-18T18:06:43Z)
A Graph-based Interactive Reasoning for Human-Object Interaction Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。 In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文参考訳（メタデータ） (2020-07-14T09:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。