論文の概要: Tracing Computation Density in LLMs
- arxiv url: http://arxiv.org/abs/2605.27033v1
- Date: Tue, 26 May 2026 13:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.201072
- Title: Tracing Computation Density in LLMs
- Title(参考訳): LLMにおける追跡計算密度
- Authors: Corentin Kervadec, Iuliia Lysova, Iuri Macocco, Marco Baroni, Gemma Boleda,
- Abstract要約: 変換器をベースとした大規模言語モデル(LLM)は、深層および広範囲の計算グラフに配置された数十億のパラメータで構成されている。
モデル出力を最もよく近似するサイズ s のサブグラフを効率的に推定する s-Trace 法を提案する。
- 参考スコア(独自算出の注目度): 8.097942585959956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models (LLMs) are comprised of billions of parameters arranged in deep and wide computational graphs, but it is not clear that they exploit their full capacity for all inputs. We introduce the s-Trace method to efficiently estimate the subgraph of size s that best approximates a full model output. With this method, we find the computation in a variety of LLMs to be organized in two distinct phases. A small subgraph mostly composed of early-layer nodes can reconstruct the head of the full model output distribution. Adding further nodes, mostly located in later layers and increasingly consisting of attention heads, leads to incremental refinements in approximating the full output distribution. We find moreover that the amount of necessary computation per input correlates with model uncertainty, and that sparser subgraphs encode shallow statistics, such as unigram frequency. Overall, our results suggest a consistent modular organization in effective LLM computation, with a sparse early-layer core providing a rough prediction that is further refined through denser computations in later layers.
- Abstract(参考訳): 変換器をベースとした大規模言語モデル(LLM)は、深部および広部な計算グラフに配置された数十億のパラメータから構成されるが、全ての入力に対してその全能力を利用するかどうかは明らかではない。
モデル出力を最もよく近似するサイズ s のサブグラフを効率的に推定する s-Trace 法を提案する。
この手法により, 2つの異なる位相で構成する各種LLMの計算法が得られた。
初期層ノードで構成される小さなサブグラフは、完全なモデル出力分布のヘッドを再構築することができる。
ノードの追加は、主に後続のレイヤに配置され、次第に注目のヘッドで構成されているため、完全な出力分布を近似する際の漸進的な改善につながります。
さらに,入力毎の計算量はモデルの不確実性と相関し,スペーサーのサブグラフはユニグラム周波数などの浅い統計データをエンコードすることがわかった。
以上の結果から,LLM 計算における一貫したモジュール構造が示唆され,粗い初期層コアが後層でのより密な計算によってさらに洗練されるような粗い予測を提供する。
関連論文リスト
- Predicting LLM Output Length via Entropy-Guided Representations [13.351384070796747]
本稿では,本モデルの内部隠蔽状態を有効長予測のために再利用する軽量フレームワークを提案する。
1) オンザフライアクティベーションとトークンエントロピーを用いて高精度な静的予測を行うEGTP (Entropy-Guided Token Pooling) である。
論文 参考訳(メタデータ) (2026-02-12T10:49:04Z) - Sparse or Dense? A Mechanistic Estimation of Computation Density in Transformer-based LLMs [7.375393542449447]
変換器をベースとした大規模言語モデル(LLM)は、深層および広範囲の計算グラフに配置された数十億のパラメータで構成されている。
本稿では,LLMの計算密度を体系的に定量化する手法を紹介する。
論文 参考訳(メタデータ) (2026-01-30T10:18:29Z) - Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z) - Sliced Iterative Normalizing Flows [7.6146285961466]
我々は,任意の確率分布関数(PDF)を対象のPDFに変換することができる反復型(欲求型)ディープラーニング(DL)アルゴリズムを開発した。
本アルゴリズムの特殊な場合として,データから潜在空間(GIS)にマップする2つの反復正規化フロー(SINF)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-01T18:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。