Fugu-MT 論文翻訳(概要): Alignment-Constrained Dynamic Pruning for LLMs: Identifying and Preserving Alignment-Critical Circuits

論文の概要: Alignment-Constrained Dynamic Pruning for LLMs: Identifying and Preserving Alignment-Critical Circuits

arxiv url: http://arxiv.org/abs/2511.07482v1
Date: Wed, 12 Nov 2025 01:01:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-12 20:17:03.35648
Title: Alignment-Constrained Dynamic Pruning for LLMs: Identifying and Preserving Alignment-Critical Circuits
Title（参考訳）: LLMの配向制約動的プルーニング:配向臨界回路の同定と保存
Authors: Dev Patel, Gabrielle Gervacio, Diekola Raimi, Kevin Zhu, Ryan Lagasse, Gabriel Grand, Ashwinee Panda, Maheep Chaudhary,
Abstract要約: 推論中にアライメント関連回路を適応的に保存する動的構造化プルーニング法であるAlignment-Aware Probe Pruning (AAPP)を提案する。 LLaMA 2-7B、Qwen2.5-14B-Instruct、Gemma-3-12B-ITの実験では、AAPPは一致した計算で拒絶率を50%改善している。
参考スコア（独自算出の注目度）: 8.041642853381909
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models require substantial computational resources for inference, posing deployment challenges. While dynamic pruning offers superior efficiency over static methods through adaptive circuit selection, it exacerbates alignment degradation by retaining only input-dependent safety-critical circuit preservation across diverse inputs. As a result, addressing these heightened alignment vulnerabilities remains critical. We introduce Alignment-Aware Probe Pruning (AAPP), a dynamic structured pruning method that adaptively preserves alignment-relevant circuits during inference, building upon Probe Pruning. Experiments on LLaMA 2-7B, Qwen2.5-14B-Instruct, and Gemma-3-12B-IT show AAPP improves refusal rates by 50\% at matched compute, enabling efficient yet safety-preserving LLM deployment.
Abstract（参考訳）: 大規模言語モデルは、推論に相当な計算資源を必要とし、デプロイの課題に対処する。動的プルーニングは、適応回路選択による静的手法よりも優れた効率を提供するが、入力依存型安全クリティカル回路保存のみを多種多様な入力で保持することによりアライメント劣化を悪化させる。その結果、アライメントの高度化に対処する上で、依然として重要な問題となっている。本稿では、推論中にアライメント関連回路を適応的に保存する動的構造化プルーニング手法であるAlignment-Aware Probe Pruning (AAPP)を紹介する。 LLaMA 2-7B、Qwen2.5-14B-Instruct、Gemma-3-12B-ITの実験では、AAPPは一致した計算でリフェール率を50%改善し、効率よくかつ安全に保存できるLCMデプロイメントを実現している。

関連論文リスト

Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。 SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文参考訳（メタデータ） (2025-10-17T07:43:51Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Steering When Necessary: Flexible Steering Large Language Models with Backtracking [16.23081952791394]
大規模言語モデル(LLM)は多くの世代で顕著な性能を達成している。アクティベーションステアリング(Activation steering)は、推論段階においてLSMのアクティベーションを直接変更する効果的で費用効率のよいアプローチである。本稿では,介入の必要性と強度の両方を動的に決定するフレキシブル・アクティベーション・ステアリング・アット・バックトラッキング(FASB)フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-25T03:01:30Z)
Linear Preference Optimization: Decoupled Gradient Control via Absolute Regularization [13.97375970293678]
DPO(Direct Preference Optimization)は、その単純さと訓練安定性から、オフライン優先最適化アルゴリズムとして広く使われている。 3つの重要なイノベーションを特徴とする新しいアライメントフレームワークであるLinear Preference Optimization (LPO)を提案する。まず,対数シグモイド関数を絶対差分損失に置き換え,最適化力学を分離することで勾配デカップリングを導入する。第2に、選択された応答品質を維持するために、オフセット制約と正の正則化項を組み合わせることで安定性を向上させる。第3に、直感的な推定を伴う勾配分離と、その相対確率の降下を線形に制御する調整可能な係数を用いて、制御可能な拒絶抑制を実装した。
論文参考訳（メタデータ） (2025-08-20T10:17:29Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender [99.3105257001476]
本稿では,入力特性に基づいてモデル動作を調整するアダプティブアクティベーションステアリング手法であるAdaSteerを提案する。 AdaSteer は Rejection Direction (RD) と Harmfulness Direction (HD) の両方に沿って入力表現を操る本研究は,LLMにおけるリアルタイム・フレキシブル安全対策のための解釈可能なモデル内装の可能性を明らかにするものである。
論文参考訳（メタデータ） (2025-04-13T07:39:17Z)
DISC: Dynamic Decomposition Improves LLM Inference Scaling [83.5708537758088]
LLMの推論スケーリング手法は、しばしば問題をステップに分解し、次にサンプリングし、次のステップを選択する。本稿では,動的分解法を提案する。この手法は,解を適応的に自動分割し,トレースを推論中に管理可能なステップに分割する手法である。
論文参考訳（メタデータ） (2025-02-23T20:37:32Z)
Constrain Alignment with Sparse Autoencoders [45.131670081186]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文参考訳（メタデータ） (2024-11-12T07:54:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。