論文の概要: Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2
- arxiv url: http://arxiv.org/abs/2512.22671v1
- Date: Sat, 27 Dec 2025 18:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.170053
- Title: Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2
- Title(参考訳): フラジル知識とロバスト指導-フォロー:Llama-3.2における幅切断二分法
- Authors: Pere Martra,
- Abstract要約: 我々は,MAW誘導幅の刈り取りが選択フィルタとして機能し,行動アライメントを保ちつつパラメトリック知識を減少させることを示す。
プルーニングされた構成は、エネルギー消費(J/Token)を最大で23%削減するが、単一要求レイテンシで罰則が生じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured width pruning of GLU-MLP layers, guided by the Maximum Absolute Weight (MAW) criterion, reveals a systematic dichotomy in how reducing the expansion ratio affects different model capabilities. While performance on tasks relying on parametric knowledge (e.g., MMLU, GSM8K) and perplexity metrics degrades predictably, instruction-following capabilities improve substantially (+46% to +75% in IFEval for Llama-3.2-1B and 3B models), and multi-step reasoning remains robust (MUSR). This pattern challenges the prevailing assumption that pruning induces uniform degradation. We evaluated seven expansion ratio configurations using comprehensive benchmarks assessing factual knowledge, mathematical reasoning, language comprehension, instruction-following, and truthfulness. Our analysis identifies the expansion ratio as a critical architectural parameter that selectively modulates cognitive capabilities, rather than merely serving as a compression metric. We provide the first systematic characterization of this selective preservation phenomenon. Notably, we document a robust inverse correlation (r = -0.864, p = 0.012 in Llama-3B) between factual knowledge capacity (MMLU) and truthfulness metrics (TruthfulQA-MC2): as knowledge degrades, the model's ability to discriminate misconceptions improves consistently. This connects two previously distinct research areas, demonstrating that MAW-guided width pruning acts as a selective filter, reducing parametric knowledge while preserving or enhancing behavioral alignment. Additionally, we quantify context-dependent efficiency trade-offs: pruned configurations achieve up to 23% reduction in energy consumption (J/token) but incur penalties in single-request latency, whereas batch processing workloads benefit uniformly.
- Abstract(参考訳): 最大絶対重み (MAW) 基準で導かれるGLU-MLP層の構造的幅プルーニングは, 膨張率の低減が異なるモデル能力に与える影響について, 系統的な二分法を明らかにする。
パラメトリック知識(例えばMMLU、GSM8K)とパープレキシティメトリクス(英語版)に依存するタスクのパフォーマンスは予測通りに低下するが、命令追従能力はLlama-3.2-1Bおよび3BモデルではIFEvalで+46%から+75%向上し、マルチステップ推論は堅牢である(MUSR)。
このパターンは、刈り込みが一様劣化を引き起こすという一般的な仮定に挑戦する。
本研究では, 事実知識, 数学的推論, 言語理解, 指示追従, 真実性を評価する総合ベンチマークを用いて, 7つの拡張比構成を評価した。
本分析では,拡張率を,単に圧縮指標として機能するのではなく,認知能力を選択的に調節する重要なアーキテクチャパラメータとして認識する。
我々はこの選択的保存現象を初めて体系的に評価した。
特に,実知能力 (MMLU) と真理性指標 (TruthfulQA-MC2) との頑健な逆相関 (r = -0.864, p = 0.012 in Llama-3B) について述べる。
これは従来と異なる2つの研究領域を繋ぎ、MAW誘導幅の刈り取りが選択フィルタとして機能し、行動アライメントを保存または強化しながらパラメトリック知識を減少させることを示した。
さらに、コンテクストに依存した効率のトレードオフを定量化する: プルーニングされた構成は、最大で23%の省エネ(J/Token)を実現するが、単一要求レイテンシで不適切なペナルティを課す一方、バッチ処理ワークロードは、一様利益を得る。
関連論文リスト
- Think Before You Prune: Self-Reflective Structured Pruning for Reasoning Language Models [31.422773877490613]
推論 LLM (Reasoning LLMs) はチェーン・オブ・ソート・ジェネレーションを通じて強力な多段階推論を実現する。
RLMの大きなモデルサイズと長いデコードタイムのアウトプットは、リソース制約のある設定にデプロイするのにコストがかかり、不適当である。
我々は、構造化されたプルーニングフレームワークであるRESPを紹介し、プルーニング決定とモデルの推論力学を一致させる。
論文 参考訳(メタデータ) (2025-12-01T20:27:05Z) - ExplicitLM: Decoupling Knowledge from Parameters via Explicit Memory Banks [4.099810580680816]
大規模言語モデルは、暗黙の知識記憶による知識の安定性と解釈性の欠如に悩まされる。
トークンシーケンスとして可読性のある知識を格納する100万スケールの外部メモリバンクを備えた新しいアーキテクチャであるExplicitLMを提案する。
論文 参考訳(メタデータ) (2025-11-03T13:53:19Z) - Capability Ceilings in Autoregressive Language Models: Empirical Evidence from Knowledge-Intensive Tasks [0.2538209532048866]
知識集約型タスクにおけるデコーダのみの自己回帰言語モデルにおける機能天井の文書化を行う。
我々は、OPTおよびPythiaモデルファミリーの能力特異的スケーリング障害を定量化し、リソース割り当て決定を通知する。
論文 参考訳(メタデータ) (2025-10-23T11:09:31Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - LLM-BIP: Structured Pruning for Large Language Models with Block-Wise Forward Importance Propagation [0.0]
ブロック単位の重要スコアの伝搬に基づくより正確なプルーニング指標を提案する。
我々は,LLaMA-7B,Vicuna-7B,LLaMA-13Bを用いて,共通ゼロショットタスクを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-12-09T11:57:16Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Quantifying Semantic Emergence in Language Models [31.608080868988825]
大規模言語モデル (LLM) は意味論的意味を捉える特別な能力として広く認識されている。
本研究では,入力トークンから意味を抽出するLLMの能力を測定するために,量的指標である情報創発(IE)を導入する。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Mutual Wasserstein Discrepancy Minimization for Sequential
Recommendation [82.0801585843835]
逐次リコメンデーションのためのMutual WasserStein差分最小化MSteinに基づく新しい自己教師型学習フレームワークを提案する。
また,ワッサーシュタイン離散度測定に基づく新しい学習損失を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:38:48Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。