論文の概要: Can an LLM Induce a Graph? Investigating Memory Drift and Context Length
- arxiv url: http://arxiv.org/abs/2510.03611v1
- Date: Sat, 04 Oct 2025 01:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.151423
- Title: Can an LLM Induce a Graph? Investigating Memory Drift and Context Length
- Title(参考訳): LLMはグラフを生成できるか? メモリドリフトとコンテキスト長を調査する
- Authors: Raquib Bin Yousuf, Aadyant Khatri, Shengzhe Xu, Mandar Sharma, Naren Ramakrishnan,
- Abstract要約: 最近提案された評価ベンチマークは、大規模言語モデル(LLM)の有効文脈長と忘れ傾向を特徴付けることを目的としている。
我々は、これらのモデルをより複雑な推論タスクで評価し、テキストから構造化された関係知識を誘導する必要があると主張している。
以上の結果から,LLMは記憶のドリフトや文脈記憶を,このような関係推論を行う場合よりもはるかに短い有効長で表現し始めることが明らかとなった。
- 参考スコア(独自算出の注目度): 11.214847796972705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently proposed evaluation benchmarks aim to characterize the effective context length and the forgetting tendencies of large language models (LLMs). However, these benchmarks often rely on simplistic 'needle in a haystack' retrieval or continuation tasks that may not accurately reflect the performance of these models in information-dense scenarios. Thus, rather than simple next token prediction, we argue for evaluating these models on more complex reasoning tasks that requires them to induce structured relational knowledge from the text - such as graphs from potentially noisy natural language content. While the input text can be viewed as generated in terms of a graph, its structure is not made explicit and connections must be induced from distributed textual cues, separated by long contexts and interspersed with irrelevant information. Our findings reveal that LLMs begin to exhibit memory drift and contextual forgetting at much shorter effective lengths when tasked with this form of relational reasoning, compared to what existing benchmarks suggest. With these findings, we offer recommendations for the optimal use of popular LLMs for complex reasoning tasks. We further show that even models specialized for reasoning, such as OpenAI o1, remain vulnerable to early memory drift in these settings. These results point to significant limitations in the models' ability to abstract structured knowledge from unstructured input and highlight the need for architectural adaptations to improve long-range reasoning.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の有効文脈長と忘れ傾向を特徴付ける評価ベンチマークが提案されている。
しかし、これらのベンチマークは、情報密度のシナリオでこれらのモデルの性能を正確に反映しないような、単純な「干し草のスタックでの待ち行列」検索や継続タスクに依存していることが多い。
したがって、単純な次のトークン予測ではなく、より複雑な推論タスクに基づいてこれらのモデルを評価し、テキストから構造化された関係知識(例えば、潜在的にノイズの多い自然言語コンテンツからのグラフなど)を誘導する必要があると論じる。
入力テキストはグラフの観点で生成できるが、その構造は明示されておらず、接続は分散テキストキューから誘導され、長いコンテキストで分離され、無関係な情報で分散されなければならない。
以上の結果から,LLMはメモリドリフトやコンテキストドレッシングを,従来のベンチマークと比較すると,このような関係推論を行う場合よりもはるかに短い有効長で表現し始めることが明らかとなった。
これらの結果から,複雑な推論タスクに対するLLMの最適利用を推奨する。
さらに、OpenAI o1のような推論に特化したモデルでさえ、これらの設定における初期のメモリドリフトに対して脆弱であることを示します。
これらの結果は、構造的知識を非構造的入力から抽象化し、長距離推論を改善するためのアーキテクチャ適応の必要性を強調し、モデルが持つ重要な制限を示している。
関連論文リスト
- GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Towards Explainable Temporal Reasoning in Large Language Models: A Structure-Aware Generative Framework [18.770512964705176]
本稿では,多種多様な時間的粒度を網羅したベンチマークを導入し,説明可能な時間的推論における大規模言語モデルの能力を体系的に評価する。
提案するGETERは,グラフ構造を記述可能なテンポラル推論のためのテキストと統合した新しい構造認識型生成フレームワークである。
GETERは最先端の性能を実現し、その効果と強力な一般化能力を示す。
論文 参考訳(メタデータ) (2025-05-21T08:20:35Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。