論文の概要: Sparse or Dense? A Mechanistic Estimation of Computation Density in Transformer-based LLMs
- arxiv url: http://arxiv.org/abs/2601.22795v1
- Date: Fri, 30 Jan 2026 10:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.379438
- Title: Sparse or Dense? A Mechanistic Estimation of Computation Density in Transformer-based LLMs
- Title(参考訳): スパース・デンス? : 変圧器を用いたLLMにおける計算密度の機械的推定
- Authors: Corentin Kervadec, Iuliia Lysova, Marco Baroni, Gemma Boleda,
- Abstract要約: 変換器をベースとした大規模言語モデル(LLM)は、深層および広範囲の計算グラフに配置された数十億のパラメータで構成されている。
本稿では,LLMの計算密度を体系的に定量化する手法を紹介する。
- 参考スコア(独自算出の注目度): 7.375393542449447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models (LLMs) are comprised of billions of parameters arranged in deep and wide computational graphs. Several studies on LLM efficiency optimization argue that it is possible to prune a significant portion of the parameters, while only marginally impacting performance. This suggests that the computation is not uniformly distributed across the parameters. We introduce here a technique to systematically quantify computation density in LLMs. In particular, we design a density estimator drawing on mechanistic interpretability. We experimentally test our estimator and find that: (1) contrary to what has been often assumed, LLM processing generally involves dense computation; (2) computation density is dynamic, in the sense that models shift between sparse and dense processing regimes depending on the input; (3) per-input density is significantly correlated across LLMs, suggesting that the same inputs trigger either low or high density. Investigating the factors influencing density, we observe that predicting rarer tokens requires higher density, and increasing context length often decreases the density. We believe that our computation density estimator will contribute to a better understanding of the processing at work in LLMs, challenging their symbolic interpretation.
- Abstract(参考訳): 変換器をベースとした大規模言語モデル(LLM)は、深層および広範囲の計算グラフに配置された数十億のパラメータで構成されている。
LLMの効率最適化に関するいくつかの研究は、パラメータのかなりの部分を引き出すことが可能であり、性能にわずかに影響を及ぼすだけであると主張している。
これは、計算がパラメータ全体に均一に分散されていないことを示唆している。
本稿では,LLMの計算密度を体系的に定量化する手法を紹介する。
特に,機械的解釈可能性に基づく密度推定器を設計する。
計算密度は,入力に応じてスパースと濃密な処理状態のモデルを切り替えるという意味で動的であり,入力毎の密度はLLM間で有意に相関し,同じ入力が低密度または高密度のいずれかを引き起こすことを示唆している。
密度に影響を与える要因を調査し、希少なトークンの予測にはより高い密度が必要であり、文脈長の増大はしばしば密度を減少させる。
我々の計算密度推定器は、LLMにおける作業時の処理をよりよく理解し、その記号解釈に挑戦するであろうと信じている。
関連論文リスト
- Densing Law of LLMs [81.06644243978101]
大規模言語モデル(LLM)は人工知能のマイルストーンとして登場し、モデルのサイズが大きくなるにつれてその性能が向上する。
本稿では,異なるスケールでLLMの品質を評価するための新しい指標として,「テクトキャパシティ密度」の概念を紹介する。
論文 参考訳(メタデータ) (2024-12-05T16:31:13Z) - Density estimation with LLMs: a geometric investigation of in-context learning trajectories [3.281128493853064]
大規模言語モデル(LLM)は、様々なタスクでコンテキスト内学習を行う際、顕著な創発的能力を示す。
本研究は,LLMがコンテキスト内で観測されたデータから確率密度関数を推定する能力について検討する。
我々は、集中主成分分析(Intensive principal Component Analysis, InPCA)を活用し、LLaMA-2モデルのコンテキスト内学習ダイナミクスを可視化および解析する。
論文 参考訳(メタデータ) (2024-10-07T17:22:56Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Quantum Adaptive Fourier Features for Neural Density Estimation [0.0]
本稿では,カーネル密度推定の一種とみなすニューラル密度推定法を提案する。
この方法は密度行列、量子力学で使われる形式主義、適応フーリエ特徴に基づいている。
本手法は, 異なる合成および実データを用いて評価し, その性能を最先端のニューラル密度推定法と比較した。
論文 参考訳(メタデータ) (2022-08-01T01:39:11Z) - Density-Based Clustering with Kernel Diffusion [59.4179549482505]
単位$d$次元ユークリッド球のインジケータ関数に対応するナイーブ密度は、密度に基づくクラスタリングアルゴリズムで一般的に使用される。
局所分布特性と滑らかさの異なるデータに適応する新しいカーネル拡散密度関数を提案する。
論文 参考訳(メタデータ) (2021-10-11T09:00:33Z) - Learning Optical Flow from a Few Matches [67.83633948984954]
密な相関体積表現は冗長であり、その中の要素のほんの一部で正確なフロー推定が達成できることを示した。
実験により,高い精度を維持しつつ計算コストとメモリ使用量を大幅に削減できることを示した。
論文 参考訳(メタデータ) (2021-04-05T21:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。