論文の概要: Hallucinate, Ground, Repeat: A Framework for Generalized Visual Relationship Detection
- arxiv url: http://arxiv.org/abs/2506.05651v1
- Date: Fri, 06 Jun 2025 00:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.272408
- Title: Hallucinate, Ground, Repeat: A Framework for Generalized Visual Relationship Detection
- Title(参考訳): Hallucinate, Ground, Repeat: 一般化された視覚的関係検出のためのフレームワーク
- Authors: Shanmukha Vellamcheti, Sanjoy Kundu, Sathyanarayanan N. Aakur,
- Abstract要約: 本研究では,大規模言語モデル(LLM)を構造化されたリレーショナルプリミティブとして活用する,反復的なビジュアルグラウンドディングフレームワークを導入する。
予測最大化(EM)にインスパイアされた本手法は,LLMを用いて検出対象から候補シーングラフを生成することと,視覚モデルを用いてこれらの仮説を知覚的証拠(最大化)と整合させる訓練とを交互に行う。
オープンワールドVRDのための新しいベンチマークをVisual Genomeに導入し、21の予測付きで評価し、3つの設定で評価する。このモデルでは、LLMのみ、少数ショット、およびデバイアスベースラインを上回り、平均リコール(mR@50)を達成する。
- 参考スコア(独自算出の注目度): 6.253919624802853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding relationships between objects is central to visual intelligence, with applications in embodied AI, assistive systems, and scene understanding. Yet, most visual relationship detection (VRD) models rely on a fixed predicate set, limiting their generalization to novel interactions. A key challenge is the inability to visually ground semantically plausible, but unannotated, relationships hypothesized from external knowledge. This work introduces an iterative visual grounding framework that leverages large language models (LLMs) as structured relational priors. Inspired by expectation-maximization (EM), our method alternates between generating candidate scene graphs from detected objects using an LLM (expectation) and training a visual model to align these hypotheses with perceptual evidence (maximization). This process bootstraps relational understanding beyond annotated data and enables generalization to unseen predicates. Additionally, we introduce a new benchmark for open-world VRD on Visual Genome with 21 held-out predicates and evaluate under three settings: seen, unseen, and mixed. Our model outperforms LLM-only, few-shot, and debiased baselines, achieving mean recall (mR@50) of 15.9, 13.1, and 11.7 on predicate classification on these three sets. These results highlight the promise of grounded LLM priors for scalable open-world visual understanding.
- Abstract(参考訳): オブジェクト間の関係を理解することは視覚知性の中心であり、具体化されたAI、補助システム、シーン理解に応用される。
しかし、ほとんどの視覚的関係検出(VRD)モデルは、それらの一般化を新しい相互作用に限定する固定述語集合に依存している。
重要な課題は、外的知識から仮定された意味論的に妥当だが注釈のない関係を視覚的に理解できないことである。
本研究では,大規模言語モデル(LLM)を構造化されたリレーショナルプリミティブとして活用する,反復的なビジュアルグラウンドディングフレームワークを導入する。
予測最大化 (EM) にインスパイアされ, LLM (Expectation) を用いて検出対象から候補シーングラフを生成することと, これらの仮説を知覚的エビデンス (maximization) と整合させる視覚モデルの訓練を交互に行う。
このプロセスは、注釈付きデータ以外の関係理解をブートストラップし、一般化によって予測が見えないようにします。
さらに、Visual Genome上でのオープンワールドVRDのための新しいベンチマークを、21の予測付きで導入し、3つの設定で評価する。
このモデルでは, LLMのみ, 少数ショット, 脱バイアスベースラインを上回り, 平均リコール(mR@50)を15.9, 13.1, 11.7で達成した。
これらの結果は、拡張性のあるオープンワールドの視覚的理解のために、基盤となるLLMの先行性を強調している。
関連論文リスト
- Generalized Visual Relation Detection with Diffusion Models [94.62313788626128]
視覚的関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としている。
本稿では,視覚的関係を連続的な埋め込みとしてモデル化し,一般化されたVRDを条件付き生成方法で実現するための拡散モデルの設計を提案する。
我々のDiff-VRDは、予め定義されたデータセットのカテゴリラベルを超えて、視覚的な関係を生成できる。
論文 参考訳(メタデータ) (2025-04-16T14:03:24Z) - PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - RelVAE: Generative Pretraining for few-shot Visual Relationship
Detection [2.2230760534775915]
本研究は,注釈付き関係を必要としない数発述語分類のための最初の事前学習手法を提案する。
VG200とVRDのデータセットについて,数発のトレーニング分割を構築し,定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-27T19:08:08Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - SrTR: Self-reasoning Transformer with Visual-linguistic Knowledge for
Scene Graph Generation [12.977857322594206]
一段階のシーングラフ生成では、スパース提案セットといくつかのクエリを使ってエンティティペア間の効果的な関係を推測する。
モデルにフレキシブルな自己推論機能を加えるために,視覚言語知識を用いた自己推論変換器(SrTR)を提案する。
大規模な事前学習型画像テキスト基礎モデルに触発され、視覚言語学的な事前知識が導入された。
論文 参考訳(メタデータ) (2022-12-19T09:47:27Z) - RelViT: Concept-guided Vision Transformer for Visual Relational
Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。
我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。
HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2022-04-24T02:46:43Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。