論文の概要: UniQ: Unified Decoder with Task-specific Queries for Efficient Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2501.05687v1
- Date: Fri, 10 Jan 2025 03:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:33.932633
- Title: UniQ: Unified Decoder with Task-specific Queries for Efficient Scene Graph Generation
- Title(参考訳): UniQ: 効率的なシーングラフ生成のためのタスク固有クエリ付き統一デコーダ
- Authors: Xinyao Liao, Wei Wei, Dangyang Chen, Yuanyuan Fu,
- Abstract要約: SGG(Scene Graph Generation)は、オブジェクトのエンティティを特定し、そのイメージ内でそれらの関係を推論することを目的としている。
1段階の手法は、学習可能なクエリの固定サイズのセットを統合し、リレーショナル三重項を共同で推論する。
一段階法の課題は、弱い絡み合いの問題に起因している。
タスク固有のクエリアーキテクチャを備えた統一デコーダUniQを紹介する。
- 参考スコア(独自算出の注目度): 9.275683880295874
- License:
- Abstract: Scene Graph Generation(SGG) is a scene understanding task that aims at identifying object entities and reasoning their relationships within a given image. In contrast to prevailing two-stage methods based on a large object detector (e.g., Faster R-CNN), one-stage methods integrate a fixed-size set of learnable queries to jointly reason relational triplets <subject, predicate, object>. This paradigm demonstrates robust performance with significantly reduced parameters and computational overhead. However, the challenge in one-stage methods stems from the issue of weak entanglement, wherein entities involved in relationships require both coupled features shared within triplets and decoupled visual features. Previous methods either adopt a single decoder for coupled triplet feature modeling or multiple decoders for separate visual feature extraction but fail to consider both. In this paper, we introduce UniQ, a Unified decoder with task-specific Queries architecture, where task-specific queries generate decoupled visual features for subjects, objects, and predicates respectively, and unified decoder enables coupled feature modeling within relational triplets. Experimental results on the Visual Genome dataset demonstrate that UniQ has superior performance to both one-stage and two-stage methods.
- Abstract(参考訳): SGG(Scene Graph Generation)は、オブジェクトを識別し、特定の画像内でそれらの関係を推論することを目的としたシーン理解タスクである。
大規模オブジェクト検出器(例えば、より高速なR-CNN)に基づく2段階の手法とは対照的に、1段階の手法では、学習可能なクエリの固定サイズのセットを統合して、リレーショナルトリプレット<subject, predicate, object>を共同で推論する。
このパラダイムは、パラメータと計算オーバーヘッドを大幅に削減した堅牢な性能を示す。
しかし、一段階の手法の課題は、三重項内で共有される結合した特徴と分離された視覚的特徴の両方を必要とする関係に関わる実体が、弱い絡み合いの問題に起因している。
以前の手法では、結合した三重項特徴モデリングに1つのデコーダを採用するか、別々の視覚的特徴抽出に複数のデコーダを採用するが、どちらも考慮しない。
本稿では,タスク固有クエリがそれぞれ対象,対象,述語に対して分離された視覚的特徴を生成するような,タスク固有クエリアーキテクチャを備えた統一デコーダUniQを紹介し,統合デコーダはリレーショナルトレーレット内の複合機能モデリングを可能にする。
Visual Genomeデータセットの実験結果から、UniQは1段法と2段法の両方よりも優れた性能を示している。
関連論文リスト
- DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding [7.470587868134298]
ポイントシーン理解は、現実世界のシーンポイントクラウドを処理する上で難しいタスクです。
最近の最先端の手法はまず各オブジェクトを分割し、次に異なるサブタスクの複数のステージで独立に処理する。
本稿では,オブジェクト中心表現を探索するDECTR(Disentangled Object-Centric TRansformer)を提案する。
論文 参考訳(メタデータ) (2024-03-25T05:22:34Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。