論文の概要: Residual Paving: Diagnosing the Routing Bottleneck in Selective Refusal Editing
- arxiv url: http://arxiv.org/abs/2605.20262v1
- Date: Mon, 18 May 2026 18:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.246716
- Title: Residual Paving: Diagnosing the Routing Bottleneck in Selective Refusal Editing
- Title(参考訳): 残留舗装:選択的拒絶編集におけるルーティング・ボトルネックの診断
- Authors: Bryce Hinkley, Peyman Najafirad,
- Abstract要約: 本稿では,凍結した命令調整型変圧器の経路付き残差編集法であるResidual Pavingを紹介する。
Gemma-3-4B-ITのホールドアウト分割では、学習されたResidual Pavingは編集の拒否を88.6%から4.0%に削減する。
6つのバックボーン、オラクル・ルーティングは報告された各行のキープ側診断スコアを改善し、中央値のゲイン+12.9 pp。
- 参考スコア(独自算出の注目度): 3.446250207083329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study selective refusal editing as a three-way control problem: induce non-refusal on designated edit prompts while preserving benign behavior and harmful refusals outside the edit set. We introduce Residual Paving, a routed residual editing method for frozen instruction-tuned transformers that separates route selectivity, whether to intervene, from residual-edit capacity, what edit to apply. An early-layer router predicts a scalar gate and expert mixture; when active, prompt-conditioned bottleneck residual experts apply later-layer residual updates while leaving the backbone unchanged. This decomposition supports an oracle-routing diagnostic where only the learned scalar gate is replaced with the held-out edit/keep label, leaving the residual editor and frozen backbone fixed. On the primary Gemma-3-4B-IT held-out split, learned Residual Paving reduces edit refusal from 88.6% to 4.0%, with 95.5% benign distribution preservation and 87.3% harmful distribution preservation. Same-protocol one-direction steering controls are much weaker on edit success, leaving edit refusal at 86.8% for Edit-target ActAdd and 78.9% for DIM-style refusal steering. The remaining failure is off-target harmful-keep degradation: harmful refusal remains below the frozen-base rate, 65.3% vs. 81.6%. Across six backbones, oracle routing improves the keep-side diagnostic score on every reported row, with median gain +12.9 pp, supporting the interpretation that learned route selectivity is the main observed bottleneck. Trajectory diagnostics on two backbones further suggest directed movement toward edit-target continuations rather than generic refusal suppression.
- Abstract(参考訳): 本研究では, 選択的拒絶編集を3方向制御問題として検討し, 指定された編集プロンプトに対して非拒否を誘導し, 良性な動作と有害な拒絶を編集セット外に保持する。
本稿では, 経路選択性, 介入するか否か, 残差編集能力, 適用すべき編集を分離する冷凍命令調整型変圧器の経路残差編集手法であるResidual Pavingを紹介する。
初期層ルータはスカラーゲートとエキスパートの混合を予測し、アクティブに条件付のボトルネック残差専門家が後層残差更新を適用し、バックボーンは変化しない。
この分解は、学習したスカラーゲートのみを保持された編集/キープラベルに置き換え、残存エディタと冷凍バックボーンを固定したオラクルルーティング診断をサポートする。
Gemma-3-4B-ITの一次分割では、学習されたResidual Pavingは編集拒否を88.6%から4.0%に減らし、95.5%の良性分布保存と87.3%の有害分布保存を行う。
同じプロトコールのワンダイレクトステアリングコントロールは編集成功よりもはるかに弱いため、編集拒否は編集ターゲットアクトAddの86.8%、DIMスタイルのリファリングの78.9%に留まった。
残りの失敗は標的外の有害なキープ劣化であり、凍ったベースレート以下で65.3%、81.6%に対して有害な拒絶が残っている。
6つのバックボーンにまたがって、オラクル・ルーティングは報告された全ての行のキープ側診断スコアを中央値のゲイン+12.9 ppで改善し、学習経路の選択性が主なボトルネックであるという解釈を支持する。
2つの背骨の軌道診断は、一般的な拒絶抑制ではなく、編集対象の継続に向けた方向の移動を示唆している。
関連論文リスト
- CRANE: Constrained Reasoning Injection for Code Agents via Nullspace Editing [5.661334639541121]
CRANEは、シンキング・インストラクトデルタを、インストラクトバックボーンの候補推論編集のプールとして扱う、トレーニング不要なパラメータ編集手法である。
ペア化されたインストラクトとシンキングのチェックポイントを組み合わせることで、CRANEはどちらのモデルよりも強力なゲインを提供する。
論文 参考訳(メタデータ) (2026-05-13T20:09:35Z) - On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment [54.30690671490447]
既存の安全アライメント信号は、主に応答レベルまたは政治外である。
FATEは、検証済みの失敗を専門家のデモンストレーションなしで修復管理に変換する。
FATEは攻撃成功率を33.5%、有害なコンプライアンスを82.6%削減し、外的軌道安全診断を6.5%改善する。
論文 参考訳(メタデータ) (2026-05-12T09:56:28Z) - AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair [21.974153439592317]
AuditBenchは576,000の登録細胞(96,000が実行)のペア実行トレースコーパスである
宣言された可観測性境界内で評価器-チャネル遮断ランキングの不安定を運用する。
80ケースのソースレベルのチャネルサージェリーサブセット上で、メカニズムアンカレートによる検証がサポートされている。
論文 参考訳(メタデータ) (2026-05-06T08:12:09Z) - Option-Order Randomisation Reveals a Distributional Position Attractor in Prompted Sandbagging [0.0]
前任のパイロットは、ラマ-3-8Bが回避に答えるよりも、位置の崩壊としてサンドバッグの実施を促したことを知った。
このフォローアップは、臨界制御として巡回的なオプションオーダーのランダム化を加えた。
正解が優先位置Eを同時に占有すると、精度は72.1%に急上昇し、A位で4.3%に低下した。
論文 参考訳(メタデータ) (2026-04-29T01:23:34Z) - DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training [18.22030439716779]
安全のために調整された大きな言語モデル(LLM)は、しばしば人口統計の違いを認めない。
このアイデンティティ・ブラインドネスは、誤った応答、不必要な拒絶、あるいは一般的な"equal-treatment"デフォルトをもたらす。
DART(Distill-Audit-Repair Training)を導入する。
論文 参考訳(メタデータ) (2026-04-18T05:28:53Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Outcome-Conditioned Reasoning Distillation for Resolving Software Issues [49.16055123488827]
本稿では, 検証済みパッチを監督として, リポジトリ内問題を解決したO-CRD(Outcome-Conditioned Reasoning Distillation)フレームワークを提案する。
歴史的修正から始まり、検証結果から段階的な修理トレースを後方に再構築する。
SWE-Bench Liteでは、GPT-4oではPass@1が10.4%、DeepSeek-V3では8.6%、GPT-5では10.3%増加する。
論文 参考訳(メタデータ) (2026-01-30T18:25:39Z) - On Exact Editing of Flow-Based Diffusion Models [97.0633397035926]
本研究では,フローベース編集を既知ソースによって駆動される分散変換問題として再構成する条件付き速度補正(CVC)を提案する。
CVCは、双対パースペクティブな速度変換機構を導入することにより、分配間変換における速度の役割を再考する。
我々は,CVCが優れた忠実度,セマンティックアライメント,多種多様なタスクに対する信頼性の高い編集動作を一貫して達成していることを示す。
論文 参考訳(メタデータ) (2025-12-30T06:29:20Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals [1.9537983097153042]
本稿では,価値に基づく強化学習エージェントの堅牢性と効率を向上させるための可逆学習フレームワークを提案する。
このフレームワークには2つの補完的なコア機構がある: s の Phi と割り込みと呼ばれる経験的に導出された遷移可逆性測度、選択状態のロールバック演算である。
論文 参考訳(メタデータ) (2025-10-16T09:48:54Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。