論文の概要: The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context
- arxiv url: http://arxiv.org/abs/2602.12108v1
- Date: Thu, 12 Feb 2026 16:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.913083
- Title: The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context
- Title(参考訳): Pensieve Paradigm:ステートフル言語モデルが独自のコンテキストを習得
- Authors: Xiaoyuan Liu, Tian Liang, Dongyang Ma, Deyu Zhou, Haitao Mi, Pinjia He, Yan Wang,
- Abstract要約: StateLMは、自身の状態を管理するための内部推論ループを備えた、新しいファンデーションモデルのクラスである。
動的に自分自身のコンテキストを設計することを学ぶことで、私たちのモデルは固定された窓のアーキテクチャの監獄から解放されます。
- 参考スコア(独自算出の注目度): 48.70817145536136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the world of Harry Potter, when Dumbledore's mind is overburdened, he extracts memories into a Pensieve to be revisited later. In the world of AI, while we possess the Pensieve-mature databases and retrieval systems, our models inexplicably lack the "wand" to operate it. They remain like a Dumbledore without agency, passively accepting a manually engineered context as their entire memory. This work finally places the wand in the model's hand. We introduce StateLM, a new class of foundation models endowed with an internal reasoning loop to manage their own state. We equip our model with a suite of memory tools, such as context pruning, document indexing, and note-taking, and train it to actively manage these tools. By learning to dynamically engineering its own context, our model breaks free from the architectural prison of a fixed window. Experiments across various model sizes demonstrate StateLM's effectiveness across diverse scenarios. On long-document QA tasks, StateLMs consistently outperform standard LLMs across all model scales; on the chat memory task, they achieve absolute accuracy improvements of 10% to 20% over standard LLMs. On the deep research task BrowseComp-Plus, the performance gap becomes even more pronounced: StateLM achieves up to 52% accuracy, whereas standard LLM counterparts struggle around 5%. Ultimately, our approach shifts LLMs from passive predictors to state-aware agents where reasoning becomes a stateful and manageable process.
- Abstract(参考訳): ハリー・ポッターの世界では、ダンブルドアの心が過大評価されると、彼は後に再訪されるためにペンシーブに記憶を抽出する。
AIの世界では、我々はPensieveの成熟したデータベースと検索システムを持っているが、我々のモデルは、それを運用する“欲求”を過度に欠いている。
それらはエージェントなしでダンブルドアのように残り、手動で設計したコンテキストをメモリ全体として受動的に受け入れる。
この作業は最終的にモデルの手に杖を置きます。
StateLMは、内部の推論ループが組み込まれて、自身の状態を管理する新しい基盤モデルである。
私たちは、コンテキストプルーニング、ドキュメントインデックス、メモ取りといった一連のメモリツールをモデルに装備し、これらのツールを積極的に管理するようにトレーニングします。
動的に自分自身のコンテキストを設計することを学ぶことで、私たちのモデルは固定されたウィンドウのアーキテクチャの監獄から解放されます。
さまざまなモデルサイズにわたる実験は、さまざまなシナリオにわたるStateLMの有効性を示している。
長いドキュメントQAタスクでは、StateLMはすべてのモデルスケールで標準LLMを一貫して上回り、チャットメモリタスクでは標準LLMよりも10%から20%の精度で絶対的な精度向上を実現している。
深い研究課題であるBrowseComp-Plusでは、パフォーマンスのギャップはさらに顕著になる。
最終的に、我々のアプローチはLSMを受動的予測器から状態認識エージェントにシフトさせ、推論はステートフルで管理可能なプロセスとなる。
関連論文リスト
- WRAVAL -- WRiting Assist eVALuation [7.441391098440092]
小言語モデル (SLM) は通常、推論の基準で、LLM (Large Language Models) よりも3~4倍低いスコアを得る。
本研究では,非推論タスクにおけるSLMの能力を強調するための評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-19T09:21:27Z) - Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - Probing the Robustness of Theory of Mind in Large Language Models [6.7932860553262415]
LLMにおけるToM探索のための68タスクの新しいデータセットを提案する。
データセットとデータセットを用いた4つのSotAオープンソースLLMのToM性能の評価(Kosinski, 2023)。
エージェントが環境における自動状態変化の知識を持っているという認識を必要とするタスクにおいて、全てのLLMが不整合性を示す傾向がみられた。
論文 参考訳(メタデータ) (2024-10-08T18:13:27Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Statler: State-Maintaining Language Models for Embodied Reasoning [19.884696137429813]
本研究では,大言語モデルに世界状態を推定するフレームワークであるStatlerを提案する。
そして、我々のフレームワークは、現在の世界状態の推定に対して各アクションを条件付けします。
複数のロボット計画タスクにおいて、強力な競合する手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-06-30T17:58:02Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [111.51612340032052]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。