論文の概要: LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs? A Benchmark and Empirical Study
- arxiv url: http://arxiv.org/abs/2505.19510v2
- Date: Thu, 29 May 2025 05:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:34.185847
- Title: LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs? A Benchmark and Empirical Study
- Title(参考訳): LLMがScene Graphを発表:大規模言語モデルはScene Graphを理解して生成できるか?ベンチマークと実証研究
- Authors: Dongil Yang, Minjin Kim, Sunghwan Kim, Beong-woo Kwak, Minjun Park, Jinseok Hong, Woontack Woo, Jinyoung Yeo,
- Abstract要約: 大規模言語モデル(LLM)は、組み込みAI、ロボティクス、その他の現実世界のタスクに応用を拡大するための道を開いた。
最近の研究は、シーン内のエンティティ、属性、およびそれらの関係をエンコードする構造化された表現であるシーングラフを活用している。
テキストシーングラフ(TSG)ベンチ(Text-Scene Graph)は,LLMのシーングラフ理解能力を評価するためのベンチマークである。
- 参考スコア(独自算出の注目度): 12.90392791734461
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The remarkable reasoning and generalization capabilities of Large Language Models (LLMs) have paved the way for their expanding applications in embodied AI, robotics, and other real-world tasks. To effectively support these applications, grounding in spatial and temporal understanding in multimodal environments is essential. To this end, recent works have leveraged scene graphs, a structured representation that encodes entities, attributes, and their relationships in a scene. However, a comprehensive evaluation of LLMs' ability to utilize scene graphs remains limited. In this work, we introduce Text-Scene Graph (TSG) Bench, a benchmark designed to systematically assess LLMs' ability to (1) understand scene graphs and (2) generate them from textual narratives. With TSG Bench we evaluate 11 LLMs and reveal that, while models perform well on scene graph understanding, they struggle with scene graph generation, particularly for complex narratives. Our analysis indicates that these models fail to effectively decompose discrete scenes from a complex narrative, leading to a bottleneck when generating scene graphs. These findings underscore the need for improved methodologies in scene graph generation and provide valuable insights for future research. The demonstration of our benchmark is available at https://tsg-bench.netlify.app. Additionally, our code and evaluation data are publicly available at https://github.com/docworlds/tsg-bench.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な推論と一般化能力は、組み込みAI、ロボティクス、その他の現実世界のタスクに応用を拡大するための道を開いた。
これらの応用を効果的に支援するためには、マルチモーダル環境における空間的・時間的理解の基盤化が不可欠である。
この目的のために、最近の作品では、シーン内のエンティティ、属性、およびそれらの関係をエンコードする構造化された表現であるシーングラフを活用している。
しかし,LLMのシーングラフ活用能力の総合評価は依然として限られている。
本研究では,テキストシーングラフ(TSG)ベンチ(Text-Scene Graph, TSG)を紹介する。
TSG Benchでは11個のLCMを評価し,シーングラフ理解においてモデルが良好に機能する一方で,特に複雑な物語において,シーングラフ生成に苦慮していることを明らかにする。
分析の結果,これらのモデルでは複雑な物語から離散的なシーンを効果的に分解することができず,シーングラフの生成にボトルネックが生じることがわかった。
これらの知見は,シーングラフ生成における方法論の改善の必要性を浮き彫りにし,今後の研究に有用な知見を提供する。
ベンチマークのデモはhttps://tsg-bench.netlify.app.comで公開されている。
さらに、コードと評価データはhttps://github.com/docworlds/tsg-bench.comで公開されています。
関連論文リスト
- Generative Visual Commonsense Answering and Explaining with Generative Scene Graph Constructing [46.701439459096235]
我々はtextittextbfG2 という新しいビジュアルコモンセンス推論手法を提案する。
まず、画像パッチとLCMを使用して、位置のないシーングラフを構築し、シーングラフの情報に基づいて回答と説明を行う。
また、トレーニング中に貴重なシーングラフ情報を吸収するためのシーングラフの自動フィルタリングと選択戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:00:36Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。