論文の概要: Stream: Scaling up Mechanistic Interpretability to Long Context in LLMs via Sparse Attention
- arxiv url: http://arxiv.org/abs/2510.19875v1
- Date: Wed, 22 Oct 2025 09:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.432531
- Title: Stream: Scaling up Mechanistic Interpretability to Long Context in LLMs via Sparse Attention
- Title(参考訳): ストリーム: スパースアテンションによるLLMの長期コンテキストへの機械的解釈可能性のスケールアップ
- Authors: J Rosser, José Luis Redondo García, Gustavo Penha, Konstantina Palla, Hugues Bouchard,
- Abstract要約: Sparse Tracingは、ダイナミックなスパースアテンションを利用して、長時間のコンテキストアテンションパターンを効率的に分析する手法である。
ほぼ直線時間で,頭部ごとのスパークアテンションマスクを推定する,コンパイル可能な階層型プルーニングアルゴリズムであるStreamを提案する。
本手法は, テラバイトのキャッシュを使わずに, 注意パターンを解析し, 情報の流れをトレースする実用的なドロップインツールを提供する。
- 参考スコア(独自算出の注目度): 1.5866317687968634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Models (LLMs) scale to million-token contexts, traditional Mechanistic Interpretability techniques for analyzing attention scale quadratically with context length, demanding terabytes of memory beyond 100,000 tokens. We introduce Sparse Tracing, a novel technique that leverages dynamic sparse attention to efficiently analyze long context attention patterns. We present Stream, a compilable hierarchical pruning algorithm that estimates per-head sparse attention masks in near-linear time $O(T \log T)$ and linear space $O(T)$, enabling one-pass interpretability at scale. Stream performs a binary-search-style refinement to retain only the top-$k$ key blocks per query while preserving the model's next-token behavior. We apply Stream to long chain-of-thought reasoning traces and identify thought anchors while pruning 97-99\% of token interactions. On the RULER benchmark, Stream preserves critical retrieval paths while discarding 90-96\% of interactions and exposes layer-wise routes from the needle to output. Our method offers a practical drop-in tool for analyzing attention patterns and tracing information flow without terabytes of caches. By making long context interpretability feasible on consumer GPUs, Sparse Tracing helps democratize chain-of-thought monitoring. Code is available at https://anonymous.4open.science/r/stream-03B8/.
- Abstract(参考訳): LLM(Large Language Models)が100万のコンテキストにスケールするにつれて、従来の機械的解釈可能性(Mechanistic Interpretability)技術は、注意スケールをコンテキスト長で2次的に分析し、10万のトークンを超えるテラバイトのメモリを必要とする。
Sparse Tracingは、ダイナミックなスパースアテンションを利用して、長時間のコンテキストアテンションパターンを効率的に分析する新しい手法である。
本稿では, 線形空間$O(T \log T)$および線形空間$O(T)$を用いて, 頭部のスパースマスマスマスをほぼ直線的に推定し, 大規模にワンパスの解釈を可能にする, コンパイル可能な階層的プルーニングアルゴリズムStreamを提案する。
Streamはバイナリ検索スタイルのリファインメントを実行し、クエリごとのトップ$k$キーブロックだけを保持すると同時に、モデルの次のトーケン動作を保存する。
Streamを長いチェーンの推論トレースに適用し、97-99\%のトークンインタラクションを実行しながら、思考アンカーを特定します。
RULERベンチマークでは、ストリームは90~96パーセントのインタラクションを破棄しながら重要な検索パスを保持し、ニードルから出力への階層的なルートを公開する。
本手法は,1テラバイトのキャッシュを使わずに,注意パターンを解析し,情報の流れをトレースする実用的なドロップインツールを提供する。
コンシューマGPU上で長時間のコンテキスト解釈を可能にすることによって、Sparse Tracingは、チェーンオブ思考監視の民主化を支援する。
コードはhttps://anonymous.4open.science/r/stream-03B8/で入手できる。
関連論文リスト
- SlimInfer: Accelerating Long-Context LLM Inference via Dynamic Token Pruning [3.502168555273189]
SlimInferは、フォワードパス中にあまり重要でないプロンプトトークンを直接プルーニングすることで推論を加速することを目的としている。
SlimInferは最大$mathbf2.53times$ time-to-first-token(TTFT)スピードアップと$mathbf1.88times$ end-to-end latency reduction for LLaMA3.1-8B-Instructを実現する。
論文 参考訳(メタデータ) (2025-08-08T16:42:38Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - MagicPIG: LSH Sampling for Efficient LLM Generation [41.75038064509643]
以上の結果から,TopKの注意力自体が特定の下流タスクの品質低下に悩まされていることが分かる。
局所感性ハッシュ(LSH)に基づく異種システムMagicPIGを提案する。
MagicPIGは、さまざまなタスクに対して高い精度を維持しながら、注意の負荷を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-21T16:44:51Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - Landmark Attention: Random-Access Infinite Context Length for
Transformers [45.69864961773124]
ランダムアクセスの柔軟性を維持しつつ、完全なコンテキストへのアクセスを可能にする新しいアプローチを提案する。
本手法では,入力の各ブロックをランドマークトークンで表現し,関連するブロックを選択するために注目度をトレーニングする。
提案手法はTransformer-XLと同等の性能を示し,各ステップで取得したトークンの数を大幅に削減する。
論文 参考訳(メタデータ) (2023-05-25T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。