論文の概要: Open World Scene Graph Generation using Vision Language Models
- arxiv url: http://arxiv.org/abs/2506.08189v1
- Date: Mon, 09 Jun 2025 19:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.657749
- Title: Open World Scene Graph Generation using Vision Language Models
- Title(参考訳): 視覚言語モデルを用いたオープンワールドシーングラフ生成
- Authors: Amartya Dutta, Kazi Sajeed Mehrab, Medha Sawhney, Abhilash Neog, Mridul Khurana, Sepideh Fatemi, Aanish Pradhan, M. Maruf, Ismini Lourentzou, Arka Daw, Anuj Karpatne,
- Abstract要約: SGG(Scene-Graph Generation)は、画像中の物体を認識し、その正当な対関係を蒸留する。
オープンワールドSGG(Open-World SGG)は、視覚言語モデル(VLM)の事前訓練された知識に直接アクセスする、トレーニング不要で、効率的で、モデルに依存しないフレームワークである。
提案手法は,マルチモーダルプロンプト,埋め込みアライメント,および軽量なペアリファインメント戦略を組み合わせることで,未知のオブジェクト語彙や関係集合に対する推論を可能にする。
- 参考スコア(独自算出の注目度): 7.024230124913843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene-Graph Generation (SGG) seeks to recognize objects in an image and distill their salient pairwise relationships. Most methods depend on dataset-specific supervision to learn the variety of interactions, restricting their usefulness in open-world settings, involving novel objects and/or relations. Even methods that leverage large Vision Language Models (VLMs) typically require benchmark-specific fine-tuning. We introduce Open-World SGG, a training-free, efficient, model-agnostic framework that taps directly into the pretrained knowledge of VLMs to produce scene graphs with zero additional learning. Casting SGG as a zero-shot structured-reasoning problem, our method combines multimodal prompting, embedding alignment, and a lightweight pair-refinement strategy, enabling inference over unseen object vocabularies and relation sets. To assess this setting, we formalize an Open-World evaluation protocol that measures performance when no SGG-specific data have been observed either in terms of objects and relations. Experiments on Visual Genome, Open Images V6, and the Panoptic Scene Graph (PSG) dataset demonstrate the capacity of pretrained VLMs to perform relational understanding without task-level training.
- Abstract(参考訳): SGG(Scene-Graph Generation)は、画像中の物体を認識し、その正当な対関係を蒸留する。
ほとんどのメソッドは、さまざまなインタラクションを学ぶためのデータセット固有の監督に依存しており、新しいオブジェクトや/または関係を含む、オープンワールド設定におけるそれらの有用性を制限する。
大型ビジョン言語モデル(VLM)を利用する方法でさえ、ベンチマーク固有の微調整を必要とするのが普通である。
トレーニング不要で効率的でモデルに依存しないフレームワークであるOpen-World SGGを導入する。
ゼロショット構造推論問題としてSGGをキャスティングすることで、マルチモーダルプロンプト、埋め込みアライメント、および軽量なペアリファインメント戦略を組み合わせることで、未知のオブジェクト語彙や関係集合に対する推論を可能にする。
この設定を評価するために,SGG固有のデータがオブジェクトと関係の両方で観測されていない場合のパフォーマンスを計測するオープンワールド評価プロトコルを定式化した。
Visual Genome、Open Images V6、Panoptic Scene Graph (PSG)データセットに関する実験は、タスクレベルのトレーニングなしでリレーショナル理解を行うための事前訓練されたVLMの能力を示している。
関連論文リスト
- PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention [69.36723767339001]
SGG(Scene Graph Generation)は、多くのコンピュータビジョンアプリケーションにおいて重要な構造化された表現を提供する。
我々はOvSGTRという名前の統一フレームワークを全体的視点から完全にオープンな語彙SGGに向けて提案する。
関係付きオープン語彙SGGのより困難な設定のために、提案手法は関係対応型事前学習を統合する。
論文 参考訳(メタデータ) (2023-11-18T06:49:17Z) - Adaptive Visual Scene Understanding: Incremental Scene Graph Generation [18.541428517746034]
シーングラフ生成(SGG)は、画像を分析し、オブジェクトとその関係に関する意味のある情報を抽出する。
本稿では,関係の漸進性,シーンの漸進性,関係の一般化性という3つの学習体制からなるベンチマークを提案する。
また、RASと呼ばれる「分析によるリプレイ」手法についても紹介する。
論文 参考訳(メタデータ) (2023-10-02T21:02:23Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。