論文の概要: Spectral Geometry of LoRA Adapters Encodes Training Objective and Predicts Harmful Compliance
- arxiv url: http://arxiv.org/abs/2604.08844v1
- Date: Fri, 10 Apr 2026 00:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.620544
- Title: Spectral Geometry of LoRA Adapters Encodes Training Objective and Predicts Harmful Compliance
- Title(参考訳): LoRAアダプタのスペクトル幾何学による学習目標の符号化と有害コンプライアンスの予測
- Authors: Roi Paul,
- Abstract要約: 言語モデルにどの微調整対象が適用されたのかをLoRA重みデルタの低ランクスペクトル要約で判別できるかどうかを検討した。
我々は、健康なSFTベースライン、逆無害嗜好のDPO、逆無害嗜好のDPO、活性化ステアリング由来のアダプタの4つのカテゴリにまたがる38個のLoRAアダプタを製造した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study whether low-rank spectral summaries of LoRA weight deltas can identify which fine-tuning objective was applied to a language model, and whether that geometric signal predicts downstream behavioral harm. In a pre-registered experiment on \texttt{Llama-3.2-3B-Instruct}, we manufacture 38 LoRA adapters across four categories: healthy SFT baselines, DPO on inverted harmlessness preferences, DPO on inverted helpfulness preferences, and activation-steering-derived adapters, and extract per-layer spectral features (norms, stable rank, singular-value entropy, effective rank, and singular-vector cosine alignment to a healthy centroid). Within a single training method (DPO), a logistic regression classifier achieves AUC~1.00 on binary drift detection, all six pairwise objective comparisons, and near-perfect ordinal severity ranking ($ρ\geq 0.956$). Principal component analysis on flattened weight deltas reveals that training objective is PC1 (AUC~1.00 for objective separation), orthogonal to training duration on PC2. Query-projection weights detect that drift occurred; value-projection weights identify which objective. Cross-method generalization fails completely: a DPO-trained classifier assigns every steering adapter a lower drift score than every DPO adapter (AUC~0.00). In a behavioral evaluation phase, DPO-inverted-harmlessness adapters show elevated harmful compliance on HEx-PHI prompts (mean ASR 0.266 vs.\ healthy 0.112, $Δ= +0.154$), with near-perfect dose--response ($ρ= 0.986$). The geometry-to-behavior rank correlation is $ρ= 0.72$ across 24 non-steered adapters. These results establish that within a controlled manufacturing regime, LoRA weight-space geometry carries objective identity, intensity ordering, and a coarse link to harmful compliance, and that cross-method monitoring requires per-method calibration.
- Abstract(参考訳): 我々は,LoRA重みデルタの低ランクスペクトル要約を用いて,言語モデルにどの微調整対象が適用されたか,また,幾何的信号が下流の行動障害を予測できるかどうかを検証した。
The pre-registered experiment on \texttt{Llama-3.2-3B-Instruct}, we produced 38 LoRA adapters across four categories: healthy SFT baselines, DPO on inverted harmlessness preferences, DPO on inverted helpness preferences, and activation-steering- derivatives, and extract per-layer spectrum features (norms, stable rank, singular-value entropy, effective rank, and singular-vector cosine alignment to a healthy centroid。
1つの訓練方法 (DPO) の中で、ロジスティック回帰分類器は、バイナリドリフト検出におけるAUC~1.00、対の客観的比較、およびほぼ完全な順序性ランキング(ρ\geq 0.956$)を達成している。
重み付きデルタの主成分分析により,PC1(AUC~1.00,目的分離),PC2のトレーニング期間の直交関係が明らかになった。
クエリ・プロジェクション・ウェイトはドリフトが発生したことを検知し、バリュー・プロジェクション・ウェイトはどの目的を識別する。
DPO訓練された分類器は、すべてのDPOアダプタ(AUC~0.00)よりも低いドリフトスコアを全てのステアリングアダプタに割り当てる。
行動評価相では, DPO反転ハーモネスアダプタはHEx-PHIプロンプト(平均ASR 0.266 vs。
\ healthy 0.112, $Δ= +0.154$, with almost-perfect dose-response(ρ=0.986$)。
幾何学的-挙動的ランク相関は、24個の非ステアドアダプタに対して$ρ= 0.72$である。
これらの結果は、制御された製造体制内では、LoRAの重量空間幾何は、客観的なアイデンティティ、強度の順序付け、有害なコンプライアンスへの粗いリンクを持ち、金属間モニタリングは金属単位のキャリブレーションを必要とすることを証明している。
関連論文リスト
- Curvature-Guided LoRA: Steering in the pretrained NTK subspace [60.35296431630704]
本稿では,PEFTを用いて得られた予測器と,出力レベルにおける完全微調整の予測器との整合性を考慮した予測アライメント問題を提案する。
我々は、この目的が自然に、ニュートンのような、曲率ホワイトの勾配に対応する最適な低ランク更新を行う、曲率対応の2階定式化につながることを示した。
この知見に基づいて、局所曲率情報を用いて適応方向を選択し、スケールする曲率誘導LoRA(CG-LoRA)を提案する。
論文 参考訳(メタデータ) (2026-03-31T14:46:39Z) - The Geometry of Harmful Intent: Training-Free Anomaly Detection via Angular Deviation in LLM Residual Streams [0.0]
本研究では,大規模言語モデルにおける残差ストリームアクティベーションの幾何を分析し,有害なプロンプトを検出するためのトレーニング不要な方法であるLatentBiopsyを提案する。
我々はQwen3.5-0.8BファミリーとQwen2.5-0.5Bファミリーの2つの完全モデル三重項を評価した。
latentBiopsyは、有害なvs-ノルミティブ検出のためのAUROC$geq$0.937と、良性攻撃的プロンプトから有害なプロンプトを識別するためのAUROC = 1.000を達成している。
論文 参考訳(メタデータ) (2026-03-28T21:19:58Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - ReactEMG Stroke: Healthy-to-Stroke Few-shot Adaptation for sEMG-Based Intent Detection [5.38542280988393]
表面筋電図(sEMG)は脳卒中後手指リハビリテーションのための有望な制御信号である。
発作性筋肉からの意図を検出するには、長大で主観的な校正が必要であり、変化に弱いままである。
本研究では,大規模能動sEMGで事前訓練したモデルからインテント検出器を初期化する健全なストローク適応パイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:26:51Z) - SPINAL -- Scaling-law and Preference Integration in Neural Alignment Layers [16.976750197698063]
本研究では,深度にまたがってアライメントが表現にどう影響するかを測定する診断手法であるSPINALを紹介する。
モデルファミリ全体で、DPOは最終デコーダブロックに集中する層ワイドキャリブレーション効果を生成する。
調整されたチェックポイントは、収縮の後期層の増加と輸送の円滑な減少を示し、厳密で安定した政策質量と一致している。
論文 参考訳(メタデータ) (2026-01-08T17:47:12Z) - Hard Negative Sample-Augmented DPO Post-Training for Small Language Models [4.425580048633862]
本稿では,現実的な計算予算下での構造化エラーを対象とする,軽量で実用的なポストトレーニングパイプラインを提案する。
本研究では,候補解を6次元の誤差プロファイルに分解し,解釈可能な誤りと不条理のスコアに集約するコンパクトなMathVerifierを提案する。
実験により、検証対象の重み付きDPOは、バニラSFTや未重み付きDPOよりも目標となる改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-12-17T06:15:52Z) - Why DPO is a Misspecified Estimator and How to Fix It [17.3051205548111]
DPOは、パラメトリックポリシークラスによって誘導される報酬関数に対する統計的推定問題を符号化していることを示す。
本稿では、DPO損失関数に補助変数を導入し、RLHFソリューションへの移行を支援するAuxDPOを提案する。
論文 参考訳(メタデータ) (2025-10-23T10:30:29Z) - DoRAN: Stabilizing Weight-Decomposed Low-Rank Adaptation via Noise Injection and Auxiliary Networks [47.58150560549918]
重み分解低ランク適応(DoRA)は,バニラ低ランク適応(LoRA)法の学習能力と訓練安定性の両方を改善することが示されている。
そこで本研究では,DoRAのトレーニングを安定化し,サンプル効率を向上させるため,新しいDoRAの派生型であるDoRANを提案する。
論文 参考訳(メタデータ) (2025-10-05T19:27:48Z) - IPA: An Information-Preserving Input Projection Framework for Efficient Foundation Model Adaptation [56.72132739364876]
隠れた空間の情報を明示的に保存する特徴認識型プロジェクションフレームワークであるIPAを提案する。
IPAはLoRAとDoRAを一貫して改善し、平均1.5ポイントの精度でコモンセンス推論を行う。
論文 参考訳(メタデータ) (2025-09-04T17:10:01Z) - Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [64.6334337560557]
教師付き学習(RvS)による強化学習は、シーケンスモデリングタスクとしてオフラインRLをフレーム化する。
決定変換器(DT)は、実際の完了したリターンを特定のターゲットリターンと確実に整合させるのに苦労する。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:30:53Z) - ARS-DETR: Aspect Ratio-Sensitive Detection Transformer for Aerial Oriented Object Detection [55.291579862817656]
既存のオブジェクト指向オブジェクト検出手法では、モデルの性能を測定するために計量AP$_50$が一般的である。
我々は、AP$_50$は本来、角度偏差に大きな耐性があるため、オブジェクト指向物体検出には適さないと主張している。
本稿では,ARS-DETR(Aspect Ratio Sensitive Oriented Object Detector with Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-09T02:20:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。