論文の概要: Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry
- arxiv url: http://arxiv.org/abs/2604.27019v1
- Date: Wed, 29 Apr 2026 12:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.724517
- Title: Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry
- Title(参考訳): 動的共振器ファインチューニングによるレゾル幾何の再構成
- Authors: Wenhao Lan, Shan Li, Junbin Yang, Haihua Shen, Yijun Yang,
- Abstract要約: 教師付き微調整(SFT)およびR2D2型逆微調整(R2D2-style adversarial fine-tuning)下での7B背骨の計測駆動機構について検討した。
我々のプロトコルは、固定ソースのHarmBench、StrongREJECT、XSTestを5行のリファクター・ジオメトリースイートと因果介入で調整する。
- 参考スコア(独自算出の注目度): 13.93757841610393
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safety-aligned language models must refuse harmful requests without collapsing into broad over-refusal, but the training-time mechanisms behind this tradeoff remain unclear. Prior work characterizes refusal directions and jailbreak robustness, yet does not explain how dynamic adversarial fine-tuning changes refusal carriers across training. We present a measurement-driven mechanism study, not a new defense, on one 7B backbone under supervised fine-tuning (SFT) and R2D2-style dynamic adversarial fine-tuning. Our protocol aligns fixed-source HarmBench, StrongREJECT, and XSTest with a five-anchor refusal-geometry suite and causal interventions. R2D2 drives fixed-source HarmBench ASR to 0.000 at steps 50 and 100, then partially reopens to 0.035 at step 250 and 0.250 at step 500; SFT remains less robust, with ASR between 0.505 and 0.588 at the same anchors. On XSTest, R2D2 any-refusal is 1.000 early, then falls to 0.664 and 0.228. Geometrically, R2D2 preserves a late-layer admissible carrier through step 100 before relocating to an early-layer carrier, while effective rank remains near 1.23--1.27. Causal interventions indicate low-dimensional but utility-coupled control. These results support a reorganization account rather than a drift-only account, with evidence limited to one backbone and fixed-source attacks.
- Abstract(参考訳): 安全に配慮した言語モデルは、広範囲にわたる過剰な拒絶に陥ることなく有害な要求を拒否しなければならないが、このトレードオフの背後にある訓練時間のメカニズムは依然として不明である。
事前の作業では、拒否方向と脱獄の堅牢さを特徴付けるが、動的に対向的な微調整がキャリアーの訓練を拒否する方法については説明していない。
本研究は,SFTおよびR2D2スタイルの動的逆向き微調整による7B背骨に対する新しい防御機構ではなく,測定駆動機構の研究である。
我々のプロトコルは、固定ソースのHarmBench、StrongREJECT、XSTestを5行のリファクター・ジオメトリースイートと因果介入で調整する。
R2D2はステップ50と100で固定ソースのHarmBench ASRを0.000に、ステップ250では0.035に、ステップ500では0.0250に部分的に再オープンする。
XSTestでは、R2D2は1.000早期に拒絶され、0.664と0.228となる。
幾何学的には、R2D2は初期層キャリアに移動する前にステップ100を通して遅延層許容キャリアを保存し、有効ランクは1.23--1.27付近に留まる。
因果介入は低次元だがユーティリティ結合制御を示す。
これらの結果は、ドリフトのみのアカウントではなく、再編成アカウントをサポートし、証拠は1つのバックボーンと固定ソース攻撃に限られる。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Evaluating Factor-Wise Auxiliary Dynamics Supervision for Latent Structure and Robustness in Simulated Humanoid Locomotion [0.0]
DynaMITEは、因子単位の補助損失によって訓練された24d遅延剤を備えたトランスフォーマーエンコーダである。
監督された潜伏剤は、分解性または機能的に分離可能な因子構造を示す証拠を示さない。
移動実践者にとって:補助力学の監督は解釈可能な推定器を作らない。
論文 参考訳(メタデータ) (2026-03-22T14:56:10Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space [1.8763872698583384]
オフラインからオンラインへの強化学習(RL)は、安全でオフラインなデモに関するポリシーを事前訓練し、オンラインインタラクションを通じてそれらを微調整することで、ロボット工学に有望なパラダイムを提供する。
本研究では,サンプル効率,安全な行動改善のために,まず低次元潜在多様体の探索を制約するカリキュラム学習フレームワークであるSPAARSを紹介する。
本稿では、性能差分補題を用いた利用ギャップの上限を証明し、潜時空間政策勾配が生空間探索よりも証明可能な分散化を実現することを証明し、潜時位相における同時動作のクローンがカリキュラムの遷移安定性を直接制御していることを示す。
論文 参考訳(メタデータ) (2026-03-10T08:52:15Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony [7.6658082440595186]
ばらつきボクセル環境における非対称な3次元追尾回避は,通信遅延,部分観測可能性,非ホロノミック操作制限下では困難である。
経路誘導型分散型追従足場上に構築し,通信自由協調性の向上を図る。
冗長なクロスエージェントチャネルを明示的に切断することで、複合的なエラーカスケードを抑えることができ、レイテンシーが発生しやすいデプロイメントにおけるロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2026-03-09T11:44:04Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration [48.446476072756276]
トレーニング不安定性は、大規模言語モデルの事前トレーニングにおいて依然として重要な課題である。
我々は,5MナノGPTモデルにおけるトレーニング失敗をP$で評価した。
安定なランクを回復するために行列手演算を周期的に適用する新しいノルムであるMSignを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:18:45Z) - Risk-Aware Human-in-the-Loop Framework with Adaptive Intrusion Response for Autonomous Vehicles [9.818695109452861]
自律走行車のためのリスク認識型ヒューマン・イン・ザ・ループ・フレームワークであるRAILを提案する。
RAILは、重み付きノイズORを介して3つのキューを侵入リスクスコア(IRS)に融合させる。
MetaDriveでは、テストリターン(TR)が360.65、テスト成功率(TSR)が0.85、テスト安全違反(TSV)が0.75、外乱率(DR)が0.0027である。
論文 参考訳(メタデータ) (2026-01-16T21:08:01Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。