論文の概要: Void in Language Models
- arxiv url: http://arxiv.org/abs/2505.14467v1
- Date: Tue, 20 May 2025 15:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.447488
- Title: Void in Language Models
- Title(参考訳): 言語モデルにおけるヴォイド
- Authors: Mani Shemiranifar,
- Abstract要約: 命令調整言語モデル(LM)における層活性化を,プロンプト処理と応答生成の2段階にわたって解析する。
すべてのレイヤが推論中に等しく寄与するわけではなく、ほとんどのレイヤを選択的にスキップすることで、特定のタスクにおけるモデルの性能が向上することを示している。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in transformer-based language models (LMs), a fundamental question remains largely unanswered: Are all layers activated during inference? We investigate this question by detecting unactivated layers (which we refer to as Voids) using a non-trainable and parameter-free adaptive computation method called L2 Adaptive Computation (LAC). We adapt LAC from its original efficiency-focused application to trace activated layers during inference. This method monitors changes in the L2-norm of activations to identify voids. We analyze layer activation in instruction-tuned LMs across two phases: Prompt Processing (PP), where we trace activated layers for each token in the input prompts, and Response Generation (RG), where we trace activated layers for each generated token. We further demonstrate that distinct layers are activated during these two phases. To show the effectiveness of our method, we evaluated three distinct instruction-tuned LMs from the Llama, Mistral, and Qwen families on three benchmarks: MMLU, GPQA Diamond, and BoolQ. For example, on MMLU with a zero-shot setting, skipping voids in Qwen2.5-7B-Instruct resulted in an improvement from 69.24 to 71.29 while the model uses only 30% of the layers. Similarly, Mistral-7B-Instruct-v0.3 on GPQA Diamond improved from 13.88 to 18.36 when using 70% of the layers during both the PP and RG phases. These results show that not all layers contribute equally during inference, and that selectively skipping most of them can improve the performance of models on certain tasks.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(LM)の進歩にもかかわらず、根本的な疑問はほとんど答えられていない。
本稿では,L2 Adaptive Computation (LAC) と呼ばれる非学習型・パラメータフリー適応計算法を用いて,不活性化層(Voidsと呼ぶ)を検出することにより,この問題を考察する。
我々は、LACを元の効率重視のアプリケーションから推論中に活性化された層をトレースするように適応する。
この方法は、活性化のL2ノルムの変化を監視し、ヴォイドを識別する。
入力プロンプト中の各トークンの活性化層をトレースするPrompt Processing (PP) と、生成された各トークンの活性化層をトレースするResponse Generation (RG) の2つのフェーズにわたって、命令調整されたLMにおける層活性化を解析する。
さらに、これらの2つのフェーズで異なるレイヤが活性化されることを示す。
提案手法の有効性を示すため,MMLU,GPQA Diamond,BoolQの3つのベンチマークを用いて,Llamaファミリー,Mistralファミリー,Qwenファミリーの3つの異なる命令チューニングLMを評価した。
例えば、MMLUではゼロショット設定で、Qwen2.5-7B-Instructでヴォイドをスキップすると69.24から71.29に改善され、モデルではレイヤーの30%しか使用されなかった。
同様に、GPQAダイヤモンド上のMistral-7B-Instruct-v0.3はPP相とRG相の両方で70%の層を使用すると13.88から18.36に改善された。
これらの結果は、すべてのレイヤが推論中に等しく寄与するわけではなく、ほとんどのレイヤを選択的にスキップすることで、特定のタスクにおけるモデルの性能を向上させることができることを示している。
関連論文リスト
- Adaptive Layer-skipping in Pre-trained LLMs [27.938188248731038]
FlexiDepthはテキスト生成で使用されるTransformerレイヤの数を動的に調整するメソッドである。
プラグインルータとアダプタを組み込むことで、FlexiDepthは大きな言語モデルで適応的なレイヤスキッピングを可能にする。
論文 参考訳(メタデータ) (2025-03-31T07:20:58Z) - A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。
$gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。
MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:53Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models [54.787308652357794]
FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。
Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
論文 参考訳(メタデータ) (2024-05-28T14:21:15Z) - Exploring Activation Patterns of Parameters in Language Models [27.454051736471374]
モデルパラメータのアクティベーションレベルを評価するための勾配に基づく計量法を提案する。
浅い層のパラメータは密に活性化されるため、パラメータの大部分は出力に大きな影響を与える。
深層層では、活性化パラメータの分布の類似性は経験的データ関連性と正に相関する。
論文 参考訳(メタデータ) (2024-05-28T03:49:54Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。