論文の概要: LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs? A Benchmark and Empirical Study
- arxiv url: http://arxiv.org/abs/2505.19510v1
- Date: Mon, 26 May 2025 04:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.176993
- Title: LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs? A Benchmark and Empirical Study
- Title(参考訳): LLMがScene Graphを発表:大規模言語モデルはScene Graphを理解して生成できるか?ベンチマークと実証研究
- Authors: Dongil Yang, Minjin Kim, Sunghwan Kim, Beong-woo Kwak, Minjun Park, Jinseok Hong, Woontack Woo, Jinyoung Yeo,
- Abstract要約: 大規模言語モデル(LLM)は、組み込みAI、ロボティクス、その他の現実世界のタスクに応用を拡大するための道を開いた。
最近の研究は、シーン内のエンティティ、属性、およびそれらの関係をエンコードする構造化された表現であるシーングラフを活用している。
テキストシーングラフ(TSG)ベンチ(Text-Scene Graph)は,LLMのシーングラフ理解能力を評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 12.90392791734461
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The remarkable reasoning and generalization capabilities of Large Language Models (LLMs) have paved the way for their expanding applications in embodied AI, robotics, and other real-world tasks. To effectively support these applications, grounding in spatial and temporal understanding in multimodal environments is essential. To this end, recent works have leveraged scene graphs, a structured representation that encodes entities, attributes, and their relationships in a scene. However, a comprehensive evaluation of LLMs' ability to utilize scene graphs remains limited. In this work, we introduce Text-Scene Graph (TSG) Bench, a benchmark designed to systematically assess LLMs' ability to (1) understand scene graphs and (2) generate them from textual narratives. With TSG Bench we evaluate 11 LLMs and reveal that, while models perform well on scene graph understanding, they struggle with scene graph generation, particularly for complex narratives. Our analysis indicates that these models fail to effectively decompose discrete scenes from a complex narrative, leading to a bottleneck when generating scene graphs. These findings underscore the need for improved methodologies in scene graph generation and provide valuable insights for future research. The demonstration of our benchmark is available at https://tsg-bench.netlify.app. Additionally, our code and evaluation data are publicly available at https://anonymous.4open.science/r/TSG-Bench.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な推論と一般化能力は、組み込みAI、ロボティクス、その他の現実世界のタスクに応用を拡大するための道を開いた。
これらの応用を効果的に支援するためには、マルチモーダル環境における空間的・時間的理解の基盤化が不可欠である。
この目的のために、最近の作品では、シーン内のエンティティ、属性、およびそれらの関係をエンコードする構造化された表現であるシーングラフを活用している。
しかし,LLMのシーングラフ活用能力の総合評価は依然として限られている。
本研究では,テキストシーングラフ(TSG)ベンチ(Text-Scene Graph, TSG)を紹介する。
TSG Benchでは11個のLCMを評価し,シーングラフ理解においてモデルが良好に機能する一方で,特に複雑な物語において,シーングラフ生成に苦慮していることを明らかにする。
分析の結果,これらのモデルでは複雑な物語から離散的なシーンを効果的に分解することができず,シーングラフの生成にボトルネックが生じることがわかった。
これらの知見は,シーングラフ生成における方法論の改善の必要性を浮き彫りにし,今後の研究に有用な知見を提供する。
ベンチマークのデモはhttps://tsg-bench.netlify.app.comで公開されている。
さらに、コードと評価データはhttps://anonymous.4open.science/r/TSG-Bench.comで公開されています。
関連論文リスト
- LLM as GNN: Graph Vocabulary Learning for Text-Attributed Graph Foundation Models [54.82915844507371]
Text-Attributed Graphs (TAG) は、現実のシナリオにおいてユビキタスである。
大規模言語モデル(LLMs)とグラフニューラルネットワーク(GNNs)をTAGsに統合する努力にもかかわらず、既存のアプローチは分離されたアーキテクチャに悩まされている。
本稿では,グラフ語彙学習に基づくTAGのための汎用GFMであるPromptGFMを提案する。
論文 参考訳(メタデータ) (2025-03-05T09:45:22Z) - Exploring Graph Tasks with Pure LLMs: A Comprehensive Benchmark and Investigation [26.19182768810174]
グラフ構造化データは、さまざまな領域でますます普及し、グラフタスクを処理する効果的なモデルに対する需要が高まっている。
グラフニューラルネットワーク(GNN)のような従来のグラフ学習モデルは、大きな進歩を遂げているが、グラフデータを扱う能力は、特定のコンテキストにおいて制限されている。
近年,グラフタスクの候補として大規模言語モデル (LLM) が登場しているが,ほとんどの研究はパフォーマンスベンチマークに重点を置いている。
論文 参考訳(メタデータ) (2025-02-26T03:03:46Z) - Are Large Language Models In-Context Graph Learners? [31.172657860606297]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著なコンテキスト内推論機能を持つ。
しかし、非ユークリッド構造に対する理解の欠如のため、グラフのような構造化データを扱うのに苦労している。
グラフデータの学習は、検索強化生成(RAG)プロセスとして概念化できることを示す。
グラフ学習タスクにおけるLLMの文脈内学習能力を高めるための一連のRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T09:14:19Z) - Generative Visual Commonsense Answering and Explaining with Generative Scene Graph Constructing [46.701439459096235]
我々はtextittextbfG2 という新しいビジュアルコモンセンス推論手法を提案する。
まず、画像パッチとLCMを使用して、位置のないシーングラフを構築し、シーングラフの情報に基づいて回答と説明を行う。
また、トレーニング中に貴重なシーングラフ情報を吸収するためのシーングラフの自動フィルタリングと選択戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:00:36Z) - SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph Generation [8.768484848591168]
SceneLLMはビデオフレームを言語信号(シーントークン)に変換するフレームワークである
提案手法は,Action Genome (AG) ベンチマークの最先端結果を実現する。
大規模な実験は、正確な動的シーングラフの理解と生成におけるSceneLLMの有効性を示す。
論文 参考訳(メタデータ) (2024-12-15T02:41:31Z) - What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。
我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文 参考訳(メタデータ) (2024-10-16T00:01:31Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。
GPEFT - グラフ表現学習のための新しい手法。
グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。
我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-28T18:36:59Z) - From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。