Fugu-MT 論文翻訳(概要): From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

論文の概要: From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

arxiv url: http://arxiv.org/abs/2404.00906v1
Date: Mon, 1 Apr 2024 04:21:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 23:26:11.502034
Title: From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models
Title（参考訳）: ピクセルからグラフへ:視覚言語モデルを用いたオープン語彙シーングラフ生成
Authors: Rongjie Li, Songyang Zhang, Dahua Lin, Kai Chen, Xuming He,
Abstract要約: シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
参考スコア（独自算出の注目度）: 81.92098140232638
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scene graph generation (SGG) aims to parse a visual scene into an intermediate graph representation for downstream reasoning tasks. Despite recent advancements, existing methods struggle to generate scene graphs with novel visual relation concepts. To address this challenge, we introduce a new open-vocabulary SGG framework based on sequence generation. Our framework leverages vision-language pre-trained models (VLM) by incorporating an image-to-graph generation paradigm. Specifically, we generate scene graph sequences via image-to-text generation with VLM and then construct scene graphs from these sequences. By doing so, we harness the strong capabilities of VLM for open-vocabulary SGG and seamlessly integrate explicit relational modeling for enhancing the VL tasks. Experimental results demonstrate that our design not only achieves superior performance with an open vocabulary but also enhances downstream vision-language task performance through explicit relation modeling knowledge.
Abstract（参考訳）: シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。近年の進歩にもかかわらず、既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。この課題に対処するために、シークエンス生成に基づく新しいオープン語彙SGGフレームワークを導入する。我々のフレームワークは、画像からグラフへの生成パラダイムを取り入れた視覚言語事前学習モデル(VLM)を活用している。具体的には,VLMを用いた画像からテキストへの生成によってシーングラフのシーケンスを生成し,これらのシーケンスからシーングラフを構築する。これにより、オープン語彙SGGにおけるVLMの強みを活用し、VLタスクを強化するための明示的リレーショナルモデリングをシームレスに統合する。実験結果から,我々の設計はオープンな語彙で優れた性能を達成できるだけでなく,明示的な関係モデリング知識を通じて,下流の視覚言語タスク性能を向上させることが示唆された。

関連論文リスト

Open World Scene Graph Generation using Vision Language Models [7.024230124913843]
SGG(Scene-Graph Generation)は、画像中の物体を認識し、その正当な対関係を蒸留する。オープンワールドSGG(Open-World SGG)は、視覚言語モデル(VLM)の事前訓練された知識に直接アクセスする、トレーニング不要で、効率的で、モデルに依存しないフレームワークである。提案手法は,マルチモーダルプロンプト,埋め込みアライメント,および軽量なペアリファインメント戦略を組み合わせることで,未知のオブジェクト語彙や関係集合に対する推論を可能にする。
論文参考訳（メタデータ） (2025-06-09T19:59:05Z)
PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。 PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。 PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文参考訳（メタデータ） (2025-04-01T14:29:51Z)
Fine-Grained Video Captioning through Scene Graph Consolidation [44.30028794237688]
本稿では,動画からフレームレベルのシーングラフを合成し,キャプション生成の中間表現を得るゼロショットビデオキャプション手法を提案する。提案手法は,まず画像VLMを用いてフレームレベルのキャプションを生成し,それらをシーングラフに変換し,これらのグラフを統合し,包括的なビデオレベルの記述を生成する。
論文参考訳（メタデータ） (2025-02-23T03:59:05Z)
Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文参考訳（メタデータ） (2024-10-01T07:02:46Z)
Joint Generative Modeling of Scene Graphs and Images via Diffusion Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文参考訳（メタデータ） (2024-01-02T10:10:29Z)
SelfGraphVQA: A Self-Supervised Graph Neural Network for Scene-based Question Answering [0.0]
シーングラフはマルチモーダル画像解析の有用なツールとして登場した。理想化されたアノテートシーングラフを利用する現在の手法は、画像から抽出された予測シーングラフを使用する場合、一般化に苦慮している。本稿では,事前学習したシーングラフ生成器を用いて,入力画像からシーングラフを抽出する。
論文参考訳（メタデータ） (2023-10-03T07:14:53Z)
Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文参考訳（メタデータ） (2023-05-23T08:28:38Z)
Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM 既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文参考訳（メタデータ） (2022-09-15T16:26:14Z)
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-16T03:16:30Z)
Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文参考訳（メタデータ） (2021-09-06T03:38:52Z)
Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。 SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文参考訳（メタデータ） (2021-08-12T17:57:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。