論文の概要: Generalized Visual Relation Detection with Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.12100v1
- Date: Wed, 16 Apr 2025 14:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:25.416003
- Title: Generalized Visual Relation Detection with Diffusion Models
- Title(参考訳): 拡散モデルを用いた一般化視覚関係検出
- Authors: Kaifeng Gao, Siqi Chen, Hanwang Zhang, Jun Xiao, Yueting Zhuang, Qianru Sun,
- Abstract要約: 視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。
本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。
我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
- 参考スコア(独自算出の注目度): 94.62313788626128
- License:
- Abstract: Visual relation detection (VRD) aims to identify relationships (or interactions) between object pairs in an image. Although recent VRD models have achieved impressive performance, they are all restricted to pre-defined relation categories, while failing to consider the semantic ambiguity characteristic of visual relations. Unlike objects, the appearance of visual relations is always subtle and can be described by multiple predicate words from different perspectives, e.g., ``ride'' can be depicted as ``race'' and ``sit on'', from the sports and spatial position views, respectively. To this end, we propose to model visual relations as continuous embeddings, and design diffusion models to achieve generalized VRD in a conditional generative manner, termed Diff-VRD. We model the diffusion process in a latent space and generate all possible relations in the image as an embedding sequence. During the generation, the visual and text embeddings of subject-object pairs serve as conditional signals and are injected via cross-attention. After the generation, we design a subsequent matching stage to assign the relation words to subject-object pairs by considering their semantic similarities. Benefiting from the diffusion-based generative process, our Diff-VRD is able to generate visual relations beyond the pre-defined category labels of datasets. To properly evaluate this generalized VRD task, we introduce two evaluation metrics, i.e., text-to-image retrieval and SPICE PR Curve inspired by image captioning. Extensive experiments in both human-object interaction (HOI) detection and scene graph generation (SGG) benchmarks attest to the superiority and effectiveness of Diff-VRD.
- Abstract(参考訳): 視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。
最近のVRDモデルは目覚ましい性能を達成しているが、それらはすべて、視覚的関係の意味的あいまいさ特性を考慮せず、事前に定義された関係カテゴリに限定されている。
物体と異なり、視覚的関係の出現は常に微妙であり、異なる視点から複数の述語によって記述することができる。
そこで本研究では,視覚関係を連続埋め込みとしてモデル化し,Diff-VRDと呼ばれる条件付き生成方式で一般化VRDを実現するための拡散モデルを提案する。
我々は、遅延空間における拡散過程をモデル化し、埋め込みシーケンスとして画像内のすべての可能な関係を生成する。
生成中、対象物対の視覚的およびテキスト的埋め込みは条件信号として機能し、クロスアテンションを介して注入される。
生成後,その意味的類似性を考慮し,関係語を主観的対象対に割り当てるために,後続のマッチング段階を設計する。
我々のDiff-VRDは拡散に基づく生成プロセスから恩恵を受け、予め定義されたデータセットのカテゴリラベルを超えて視覚的関係を生成できる。
この一般化VRDタスクを適切に評価するために、画像キャプションにインスパイアされたテキスト・ツー・イメージ検索とSPICE PR曲線の2つの評価指標を導入する。
人-物間相互作用(HOI)検出とシーングラフ生成(SGG)ベンチマークの併用実験により,Diff-VRDの優位性と有効性が確認された。
関連論文リスト
- Unbiased Scene Graph Generation by Type-Aware Message Passing on Heterogeneous and Dual Graphs [1.0609815608017066]
これらの問題に対処するために,非バイアスのシーングラフ生成(TA-HDG)を提案する。
対話型および非対話型関係をモデル化するために,対話型グラフ構築法を提案する。
Type-Aware Message Passingは、複雑なインタラクションの理解を強化する。
論文 参考訳(メタデータ) (2024-11-20T12:54:47Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Zero-shot Visual Relation Detection via Composite Visual Cues from Large
Language Models [44.60439935450292]
本稿では,ゼロショット視覚認識のための新しい手法であるRECODEを提案する。
各述語カテゴリを主題、対象、空間構成要素に分解する。
異なる視覚的手がかりは、異なる視点から類似した関係カテゴリの識別可能性を高める。
論文 参考訳(メタデータ) (2023-05-21T14:40:48Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Prototype-based Embedding Network for Scene Graph Generation [105.97836135784794]
現在のシーングラフ生成(SGG)手法は、コンテキスト情報を探索し、エンティティペア間の関係を予測する。
被写体と対象物の組み合わせが多様であるため、各述語カテゴリーには大きなクラス内変異が存在する。
プロトタイプベースのEmbedding Network (PE-Net) は、エンティティ/述語を、プロトタイプに準拠したコンパクトで独特な表現でモデル化する。
PLは、PE-Netがそのようなエンティティ述語マッチングを効率的に学習するのを助けるために導入され、不明瞭なエンティティ述語マッチングを緩和するためにプロトタイプ正規化(PR)が考案されている。
論文 参考訳(メタデータ) (2023-03-13T13:30:59Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。