Fugu-MT 論文翻訳(概要): TokenMizer: Graph-Structured Session Memory for Long-Horizon LLM Context Management

論文の概要: TokenMizer: Graph-Structured Session Memory for Long-Horizon LLM Context Management

arxiv url: http://arxiv.org/abs/2606.06337v1
Date: Thu, 04 Jun 2026 16:12:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.93834
Title: TokenMizer: Graph-Structured Session Memory for Long-Horizon LLM Context Management
Title（参考訳）: TokenMizer:LLMコンテキスト管理のためのグラフ構造化セッションメモリ
Authors: Shweta Mishra,
Abstract要約: 本稿では,大規模言語モデルのセッションを型付き知識グラフとしてモデル化するオープンソースのプロキシシステムであるTokenMizerを紹介する。平均78トークン(範囲:42-124) - 評価ベースラインよりも2倍小さい再開ブロックを生成する。全セッションで、TokenMizerはタスクリコールを51.0%、決定リコールを46.6%、ファイルリコールを58.7%としている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model (LLM) deployments for long-horizon tasks face a fundamental constraint: context windows are finite while productive work sessions are not. When history exceeds the Maximum Effective Context Window (MECW), critical structured information - architectural decisions, task transitions, file histories - is silently discarded. Existing mitigations treat history as flat text, destroying the relational structure that makes sessions resumable. We present TokenMizer, an open-source proxy system that models LLM session history as a typed knowledge graph. The schema defines 14 node types and 7 edge types. A hybrid extraction pipeline populates the graph incrementally, while a three-tier checkpoint system serializes it into compact resume blocks. An 8-layer compression pipeline reduces context overhead, and a semantic cache reduces repeated-query latency. Evaluated on a controlled benchmark of 21 sessions spanning 5 domains, TokenMizer demonstrates significant token economy. It produces resume blocks averaging 78 tokens (range: 42-124) - 2x smaller than evaluated baselines (159-170 tokens) - while achieving higher decision recall (+9-17 percentage points). Crucially, baselines only preserve that a technology was mentioned; TokenMizer preserves the rationale. Across all sessions, TokenMizer achieves mean task recall 51.0%, decision recall 46.6%, and file recall 58.7%. Variance reflects domain heterogeneity: explicit imperative phrasing (software engineering) scores higher than implicit reasoning (research). Ablation studies show fuzzy label matching is the dominant improvement factor (+33 pp task recall). The heuristic compression achieves 47.3% token reduction with zero external dependencies. TokenMizer provides a queryable alternative to text-retention baselines at half the token cost.
Abstract（参考訳）: 長期タスクのための大規模言語モデル(LLM)デプロイメントは、基本的な制約に直面します。履歴が最大効果コンテキストウィンドウ(MECW)を超えると、アーキテクチャ上の決定、タスク遷移、ファイル履歴といった重要な構造化情報は静かに破棄されます。既存の緩和策は、履歴をフラットテキストとして扱い、セッションを再利用可能にするリレーショナル構造を破壊する。本稿では,LLMセッション履歴を型付き知識グラフとしてモデル化したオープンソースのプロキシシステムであるTokenMizerを紹介する。スキーマは14のノードタイプと7のエッジタイプを定義する。ハイブリッド抽出パイプラインはグラフを漸進的に集約し、3層チェックポイントシステムはそれをコンパクトな再開ブロックにシリアライズする。 8層圧縮パイプラインはコンテキストオーバーヘッドを減らし、セマンティックキャッシュは繰り返し待ち時間を削減する。 TokenMizerは5つのドメインにまたがる21セッションの制御されたベンチマークに基づいて、重要なトークン経済を実証している。平均78トークン(範囲:42-124) - 評価されたベースライン(159-170トークン)よりも2倍小さく、高い決定リコール(+9-17ポイント)を達成する。重要なことは、ベースラインは技術が言及されたことを保っているだけであり、TokenMizerはその根拠を保っている。全セッションで、TokenMizerは平均タスクリコール率51.0%、決定リコール率46.6%、ファイルリコール率58.7%を達成した。変数はドメインの不均一性を反映しており、明示的な命令的表現(ソフトウェア工学)は暗黙的な推論(research)よりも高いスコアである。アブレーション研究ではファジィラベルマッチングが主な改善因子である(+33 pp タスクリコール)。ヒューリスティック圧縮は47.3%のトークン還元を実現し、外部依存はゼロである。 TokenMizerは、トークンコストの半分でテキスト保持ベースラインのクエリ可能な代替手段を提供する。

関連論文リスト

ContextRAG: Extraction-Free Hierarchical Graph Construction for Retrieval-Augmented Generation [0.9936176521793759]
グラフ構造化検索拡張生成システム(RAG)は,マルチホップ質問に対する回答品質を向上させることができる。現在のシステムは、インデックス作成中にエンティティ、関係、要約を抽出するために、大きな言語モデル(LLM)に依存している。グラフトポロジをLCMベースのエンティティや関係抽出なしで構築したグラフRAGシステムであるContextRAGを提案する。
論文参考訳（メタデータ） (2026-05-19T12:08:19Z)
Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations [2.6382975801439836]
セグメントは最小限のキーワードのブックマークに置き換えられ、モデルはオンデマンドで全コンテンツを取得するリコール()ツールが与えられる。 LoCoMoベンチマークでは、コラボレーティブページングは、トランケーション、BM25、ワードオーバーラップ検索、検索ツールベースライン、フルコンテキストの6つのメソッドの中で、最も高い回答品質を達成する。次に、境界戦略と消去政策(3,176個の合成プローブ、1,600個のLoCoMoプローブ)に対する5×4のアブレーションでページング設計空間を研究する。
論文参考訳（メタデータ） (2026-04-14T07:06:35Z)
Escaping the Context Bottleneck: Active Context Curation for LLM Agents via Reinforcement Learning [6.577332846728808]
タスク実行からコンテキスト管理を分離する共生フレームワークを導入する。私たちのアーキテクチャは、軽量で特殊なポリシーモデルであるContextCuratorと、強力な凍結基盤モデルであるTaskExecutorを組み合わせています。 WebArenaでは,Gemini-3.0フラッシュの成功率を36.4%から41.2%に改善し,トークン使用率を8.8%削減した。 DeepSearchでは、53.9%と比べて57.1%の成功率を達成し、トークン消費を8.5%削減した。
論文参考訳（メタデータ） (2026-04-13T13:39:17Z)
APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文参考訳（メタデータ） (2026-03-31T00:24:56Z)
Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents [0.0]
我々は,蓄積したLLM理解をバージョン管理状態として扱うシステムであるコンテキスト記憶仮想化(CMV)を提案する。 CMVはセッション履歴を、正式に定義されたスナップショット、ブランチ、トリムプリミティブを備えたDAG(Directed Acyclic Graph)としてモデル化する。シングルユーザによるケーススタディ評価では、トリミングが迅速なキャッシュの下で経済的に有効であることが示されている。
論文参考訳（メタデータ） (2026-02-25T20:52:52Z)
dVoting: Fast Voting for dLLMs [71.572316901001]
拡散大言語モデル(dLLMs)は自己回帰モデリングを超えた新しいパラダイムである。 dLLMは任意の位置で任意のトークンを並列に生成できるため、並列テストタイムスケーリングには大きな可能性がある。トレーニングなしで推論能力を高める高速投票手法であるdVotingを導入する。
論文参考訳（メタデータ） (2026-02-12T16:35:05Z)
TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文参考訳（メタデータ） (2025-11-07T16:08:34Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。