論文の概要: DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement
- arxiv url: http://arxiv.org/abs/2506.15583v2
- Date: Sat, 20 Sep 2025 19:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.356604
- Title: DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement
- Title(参考訳): DiscoSG: 反復グラフリファインメントによる談話レベルテキストシーングラフ解析を目指して
- Authors: Shaoqing Lin, Chong Teng, Fei Li, Donghong Ji, Lizhen Qu, Zhuang Li,
- Abstract要約: 視覚言語モデルは、談話レベルの多文視覚記述を生成する。
現在のアプローチでは、談話入力のための文レベルの構文解析出力をマージする。
新しいタスクであるDiscoSG(DiscoSG)を導入した。
400のエキスパートアノテーションと8,430の合成多重文キャプショングラフペアからなるデータセットであるDiscoSG-DSをリリースする。
- 参考スコア(独自算出の注目度): 41.77893006227148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) generate discourse-level, multi-sentence visual descriptions, challenging text scene graph parsers built for single-sentence caption-to-graph mapping. Current approaches typically merge sentence-level parsing outputs for discourse input, often missing phenomena like cross-sentence coreference, resulting in fragmented graphs and degraded downstream VLM task performance. We introduce a new task, Discourse-level text Scene Graph parsing (DiscoSG), and release DiscoSG-DS, a dataset of 400 expert-annotated and 8,430 synthesised multi-sentence caption-graph pairs. Each caption averages 9 sentences, and each graph contains at least 3 times more triples than those in existing datasets. Fine-tuning GPT-4o on DiscoSG-DS yields over 40% higher SPICE than the strongest sentence-merging baseline. However, its high inference cost and licensing restrict open-source use, and smaller fine-tuned open-source models (e.g., Flan-T5) perform poorly on dense graph generation. To bridge this gap, we propose DiscoSG-Refiner, which drafts a base graph using a seed parser and iteratively refines it with a second model, improving robustness for complex graph generation. Using two small fine-tuned Flan-T5-Base models, DiscoSG-Refiner improves SPICE by approximately 30% over the baseline while achieving 86 times faster inference than GPT-4o. It also delivers consistent gains on downstream VLM tasks, including discourse-level caption evaluation and hallucination detection, outperforming alternative parsers. Code and data are available at https://github.com/ShaoqLin/DiscoSG .
- Abstract(参考訳): VLM(Vision-Language Models)は、単一文のキャプション・ツー・グラフマッピング用に構築されたテキストシーングラフ解析に挑戦する、談話レベルの多文視覚記述を生成する。
現在のアプローチでは、通常、談話入力のための文レベルの構文解析出力をマージするが、しばしばクロス文のコア参照のような現象が欠落し、断片化されたグラフと下流のVLMタスクのパフォーマンスが低下する。
本稿では,DiscoSG(Discourse-level text Scene Graph parsing)とDiscoSG-DS(DiscoSG-DS)を新たに導入する。
各キャプションの平均は9文であり、各グラフは既存のデータセットの3倍の3倍の量を格納している。
DiscoSG-DS 上の細調整 GPT-4o は、最強の文合併ベースラインよりも SPICE が40%以上高い。
しかし、その高い推論コストとライセンスはオープンソースの使用を制限し、より小さな微調整のオープンソースモデル(例えば、Flan-T5)は、高密度グラフ生成では不十分である。
このギャップを埋めるために、シードパーサを用いてベースグラフをドラフトし、2番目のモデルで反復的にこれを洗練し、複雑なグラフ生成の堅牢性を向上させるDiscoSG-Refinerを提案する。
2つの細調整されたFlan-T5-Baseモデルを使用して、DiscoSG-Refinerはベースラインを約30%上回り、GPT-4oの86倍の速度でSPICEを改善する。
また、談話レベルのキャプション評価や幻覚検出など、下流のVLMタスクに対して一貫した利得を提供し、代替パーサーよりも優れています。
コードとデータはhttps://github.com/ShaoqLin/DiscoSG.comで公開されている。
関連論文リスト
- Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [75.9865035064794]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - LLM as GNN: Graph Vocabulary Learning for Text-Attributed Graph Foundation Models [54.82915844507371]
Text-Attributed Graphs (TAG) は、現実のシナリオにおいてユビキタスである。
大規模言語モデル(LLMs)とグラフニューラルネットワーク(GNNs)をTAGsに統合する努力にもかかわらず、既存のアプローチは分離されたアーキテクチャに悩まされている。
本稿では,グラフ語彙学習に基づくTAGのための汎用GFMであるPromptGFMを提案する。
論文 参考訳(メタデータ) (2025-03-05T09:45:22Z) - GraphiT: Efficient Node Classification on Text-Attributed Graphs with Prompt Optimized LLMs [0.0]
GraphiT(Graphs in Text)は、グラフをテキストフォーマットにエンコードするフレームワークである。
GraphiTがすぐに微調整することなく、測定可能な結果をもたらす方法を示します。
論文 参考訳(メタデータ) (2025-02-14T19:38:41Z) - GraphSOS: Graph Sampling and Order Selection to Help LLMs Understand Graphs Better [13.742220809751627]
GraphSOSは、グラフデータを自然言語テキストに変換する新しいフレームワークである。
Order Selector Moduleはグラフの適切なシリアライズ順序を保証するもので、Subgraph Smpling Moduleはより良い推論のためにより良い構造を持つサブグラフをサンプリングする。
ノード分類とグラフ問合せのための複数のデータセットの実験は、GraphSOSがグラフタスクにおけるLLMのパフォーマンスと能力を改善することを示した。
論文 参考訳(メタデータ) (2025-01-24T11:55:57Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。