Fugu-MT 論文翻訳(概要): Void in Language Models

論文の概要: Void in Language Models

arxiv url: http://arxiv.org/abs/2505.14467v1
Date: Tue, 20 May 2025 15:01:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.447488
Title: Void in Language Models
Title（参考訳）: 言語モデルにおけるヴォイド
Authors: Mani Shemiranifar,
Abstract要約: 命令調整言語モデル(LM)における層活性化を,プロンプト処理と応答生成の2段階にわたって解析する。すべてのレイヤが推論中に等しく寄与するわけではなく、ほとんどのレイヤを選択的にスキップすることで、特定のタスクにおけるモデルの性能が向上することを示している。
参考スコア（独自算出の注目度）: 2.7195102129095003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite advances in transformer-based language models (LMs), a fundamental question remains largely unanswered: Are all layers activated during inference? We investigate this question by detecting unactivated layers (which we refer to as Voids) using a non-trainable and parameter-free adaptive computation method called L2 Adaptive Computation (LAC). We adapt LAC from its original efficiency-focused application to trace activated layers during inference. This method monitors changes in the L2-norm of activations to identify voids. We analyze layer activation in instruction-tuned LMs across two phases: Prompt Processing (PP), where we trace activated layers for each token in the input prompts, and Response Generation (RG), where we trace activated layers for each generated token. We further demonstrate that distinct layers are activated during these two phases. To show the effectiveness of our method, we evaluated three distinct instruction-tuned LMs from the Llama, Mistral, and Qwen families on three benchmarks: MMLU, GPQA Diamond, and BoolQ. For example, on MMLU with a zero-shot setting, skipping voids in Qwen2.5-7B-Instruct resulted in an improvement from 69.24 to 71.29 while the model uses only 30% of the layers. Similarly, Mistral-7B-Instruct-v0.3 on GPQA Diamond improved from 13.88 to 18.36 when using 70% of the layers during both the PP and RG phases. These results show that not all layers contribute equally during inference, and that selectively skipping most of them can improve the performance of models on certain tasks.
Abstract（参考訳）: トランスフォーマーベースの言語モデル(LM)の進歩にもかかわらず、根本的な疑問はほとんど答えられていない。本稿では,L2 Adaptive Computation (LAC) と呼ばれる非学習型・パラメータフリー適応計算法を用いて,不活性化層(Voidsと呼ぶ)を検出することにより,この問題を考察する。我々は、LACを元の効率重視のアプリケーションから推論中に活性化された層をトレースするように適応する。この方法は、活性化のL2ノルムの変化を監視し、ヴォイドを識別する。入力プロンプト中の各トークンの活性化層をトレースするPrompt Processing (PP) と、生成された各トークンの活性化層をトレースするResponse Generation (RG) の2つのフェーズにわたって、命令調整されたLMにおける層活性化を解析する。さらに、これらの2つのフェーズで異なるレイヤが活性化されることを示す。提案手法の有効性を示すため,MMLU,GPQA Diamond,BoolQの3つのベンチマークを用いて,Llamaファミリー,Mistralファミリー,Qwenファミリーの3つの異なる命令チューニングLMを評価した。例えば、MMLUではゼロショット設定で、Qwen2.5-7B-Instructでヴォイドをスキップすると69.24から71.29に改善され、モデルではレイヤーの30%しか使用されなかった。同様に、GPQAダイヤモンド上のMistral-7B-Instruct-v0.3はPP相とRG相の両方で70%の層を使用すると13.88から18.36に改善された。これらの結果は、すべてのレイヤが推論中に等しく寄与するわけではなく、ほとんどのレイヤを選択的にスキップすることで、特定のタスクにおけるモデルの性能を向上させることができることを示している。

関連論文リスト

GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文参考訳（メタデータ） (2025-07-24T02:34:13Z)
Adaptive Layer-skipping in Pre-trained LLMs [27.938188248731038]
FlexiDepthはテキスト生成で使用されるTransformerレイヤの数を動的に調整するメソッドである。プラグインルータとアダプタを組み込むことで、FlexiDepthは大きな言語モデルで適応的なレイヤスキッピングを可能にする。
論文参考訳（メタデータ） (2025-03-31T07:20:58Z)
Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs [56.74916151916208]
大型言語モデル(LLM)は、様々なドメインでAIアシスタントとして機能する際、幻覚(不信または非感覚的な情報)を示す。学習中に必然的にノイズを発生させる応答レベルの嗜好学習を行う従来の事実アライメント手法。本稿では,Mask-DPO (Direct Preference Optimization, DPO) に基づくファクトリティアライメント手法を提案する。
論文参考訳（メタデータ） (2025-03-04T18:20:24Z)
A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文参考訳（メタデータ） (2025-02-26T14:15:24Z)
$γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。 $gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。 MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文参考訳（メタデータ） (2024-10-17T17:59:53Z)
Llama SLayer 8B: Shallow Layers Hold the Key to Knowledge Injection [73.06596715100859]
知識注入のための最適層範囲の探索における各層の重要性について検討する。本研究では,浅層を選択的に強化し,有効でない深層を刈り取るための事前学習戦略であるS戦略を提案する。この戦略に基づき,Llama Slayer-8BとLlama Slayer-8B-Instructを導入する。
論文参考訳（メタデータ） (2024-10-03T09:28:59Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models [54.787308652357794]
FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。 Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
論文参考訳（メタデータ） (2024-05-28T14:21:15Z)
Exploring Activation Patterns of Parameters in Language Models [27.454051736471374]
モデルパラメータのアクティベーションレベルを評価するための勾配に基づく計量法を提案する。浅い層のパラメータは密に活性化されるため、パラメータの大部分は出力に大きな影響を与える。深層層では、活性化パラメータの分布の類似性は経験的データ関連性と正に相関する。
論文参考訳（メタデータ） (2024-05-28T03:49:54Z)
Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文参考訳（メタデータ） (2024-03-04T16:23:58Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via Layer Consistency [31.572652956170252]
トランスフォーマーをベースとした自己教師型モデルは特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを実現している。従来のBERT法と同等の性能を維持しつつ、7.8Xパラメータの削減、41.9%のトレーニングスピードアップ、37.7%の推論スピードアップを実験的に達成した。
論文参考訳（メタデータ） (2021-04-08T08:21:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。