論文の概要: DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement
- arxiv url: http://arxiv.org/abs/2506.15583v1
- Date: Wed, 18 Jun 2025 16:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.732915
- Title: DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement
- Title(参考訳): DiscoSG: 反復グラフリファインメントによる談話レベルテキストシーングラフ解析を目指して
- Authors: Shaoqing Lin, Chong Teng, Fei Li, Donghong Ji, Lizhen Qu, Zhuang Li,
- Abstract要約: VLM(Vision-Language Models)は、談話レベルの多文視覚記述を生成する。
現在のアプローチでは、談話入力のための文レベルの構文解析出力をマージする。
データセットであるDiscoSG-DSがサポートする新しいタスクであるDiscoSG(Discourse-level text Scene Graph parsing)を導入する。
- 参考スコア(独自算出の注目度): 41.301675389966285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) now generate discourse-level, multi-sentence visual descriptions, challenging text scene graph parsers originally designed for single-sentence caption-to-graph mapping. Current approaches typically merge sentence-level parsing outputs for discourse input, often missing phenomena like cross-sentence coreference, resulting in fragmented graphs and degraded downstream VLM task performance. To address this, we introduce a new task, Discourse-level text Scene Graph parsing (DiscoSG), supported by our dataset DiscoSG-DS, which comprises 400 expert-annotated and 8,430 synthesised multi-sentence caption-graph pairs for images. Each caption averages 9 sentences, and each graph contains at least 3 times more triples than those in existing datasets. While fine-tuning large PLMs (i.e., GPT-4) on DiscoSG-DS improves SPICE by approximately 48% over the best sentence-merging baseline, high inference cost and restrictive licensing hinder its open-source use, and smaller fine-tuned PLMs struggle with complex graphs. We propose DiscoSG-Refiner, which drafts a base graph using one small PLM, then employs a second PLM to iteratively propose graph edits, reducing full-graph generation overhead. Using two Flan-T5-Base models, DiscoSG-Refiner still improves SPICE by approximately 30% over the best baseline while achieving 86 times faster inference than GPT-4. It also consistently improves downstream VLM tasks like discourse-level caption evaluation and hallucination detection. Code and data are available at: https://github.com/ShaoqLin/DiscoSG
- Abstract(参考訳): VLM(Vision-Language Models)は、単一の文のキャプション・ツー・グラフマッピング用に設計されたテキストシーングラフ解析に挑戦する、談話レベルの多文視覚記述を生成する。
現在のアプローチでは、通常、談話入力のための文レベルの構文解析出力をマージするが、しばしばクロス文のコア参照のような現象が欠落し、断片化されたグラフと下流のVLMタスクのパフォーマンスが低下する。
そこで本研究では,400のエキスパートアノテーションと8,430の合成された画像用多文キャプショングラフペアからなるデータセットDiscoSG-DSをサポートする,DiscoSG(Discourse-level text Scene Graph parsing)というタスクを導入する。
各キャプションの平均は9文であり、各グラフは既存のデータセットの3倍の3倍の量を格納している。
DiscoSG-DS 上の細調整された大きな PLM (すなわち GPT-4) は、最高の文合併ベースラインに対して SPICE を約48%改善するが、高い推論コストと制限的なライセンスは、そのオープンソース利用を妨げ、より小さな細調整 PLM は複雑なグラフに苦しむ。
本研究では,1つの小さな PLM を用いてベースグラフをドラフトする DiscoSG-Refiner を提案し,次に第2の PLM を用いてグラフ編集を反復的に提案し,全グラフ生成のオーバーヘッドを低減する。
2つのFlan-T5-Baseモデルを使用して、DiscoSG-Refinerは依然としてSPICEを最高のベースラインに対して約30%改善し、GPT-4よりも86倍高速な推論を実現している。
また、談話レベルのキャプション評価や幻覚検出など、下流のVLMタスクを継続的に改善する。
コードとデータは、https://github.com/ShaoqLin/DiscoSGで入手できる。
関連論文リスト
- Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [75.9865035064794]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - GraphiT: Efficient Node Classification on Text-Attributed Graphs with Prompt Optimized LLMs [0.0]
GraphiT(Graphs in Text)は、グラフをテキストフォーマットにエンコードするフレームワークである。
GraphiTがすぐに微調整することなく、測定可能な結果をもたらす方法を示します。
論文 参考訳(メタデータ) (2025-02-14T19:38:41Z) - GraphSOS: Graph Sampling and Order Selection to Help LLMs Understand Graphs Better [13.742220809751627]
GraphSOSは、グラフデータを自然言語テキストに変換する新しいフレームワークである。
Order Selector Moduleはグラフの適切なシリアライズ順序を保証するもので、Subgraph Smpling Moduleはより良い推論のためにより良い構造を持つサブグラフをサンプリングする。
ノード分類とグラフ問合せのための複数のデータセットの実験は、GraphSOSがグラフタスクにおけるLLMのパフォーマンスと能力を改善することを示した。
論文 参考訳(メタデータ) (2025-01-24T11:55:57Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。