論文の概要: TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs
- arxiv url: http://arxiv.org/abs/2508.02063v1
- Date: Mon, 04 Aug 2025 05:03:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.181548
- Title: TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs
- Title(参考訳): TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs
- Authors: Amitava Das, Vinija Jain, Aman Chadha,
- Abstract要約: 大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示す。
以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。
TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
- 参考スコア(独自算出の注目度): 7.125400292079228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) fine-tuned to align with human values often exhibit alignment drift, producing unsafe or policy-violating completions when exposed to adversarial prompts, decoding perturbations, or paraphrased jailbreaks. While prior work has behaviorally characterized alignment failure, little is known about the training-time belief sources underlying these failures. We introduce TraceAlign, a unified framework for tracing unsafe completions back to their root causes in the model's training corpus. Central to our approach is the Belief Conflict Index (BCI), which quantifies semantic inconsistency between generated spans and aligned policies, based on retrieved training documents using suffix-array matching. We propose three complementary interventions: (i) TraceShield, an inference-time safety filter that refuses completions with high-BCI spans, (ii) Contrastive Belief Deconfliction Loss, a contrastive fine-tuning objective penalizing high-BCI continuations during DPO, and (iii) Prov-Decode, a provenance-aware decoding strategy that vetoes beam expansions predicted to yield high-BCI spans. Together, these defenses reduce alignment drift by up to 85% on our curated Alignment Drift Benchmark (ADB) while preserving utility on standard tasks, with delta less than 0.2 and improved refusal quality. We further derive a theoretical upper bound on drift likelihood via suffix-array span statistics, linking memorization frequency and length to adversarial reactivation risk. TraceAlign thus provides the first scalable, traceable, and grounded toolkit for understanding and mitigating alignment failures at source. To encourage further exploration and development, we open-source our implementation at: https://anonymous.4open.science/r/tracealign-2DA7
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示し、敵のプロンプトに晒された時に、安全でないまたはポリシー違反の完了を生じる。
以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。
TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
我々のアプローチの中心はBCI(Belief Conflict Index)であり、suffix-array マッチングを用いて取得したトレーニング文書に基づいて、生成されたスパンとアライメントポリシーのセマンティック不整合を定量化する。
我々は3つの補完的介入を提案する。
(i)高BCIスパンの完了を拒否する推論時安全フィルタTraceShield
(二)DPO中の高BCI継続を罰する対照的な微調整目標である反トラスト的信条不履行損失
(iii) Prov-Decodeは、高BCI幅が得られると予測されるビーム展開を拒否する証明対応デコード戦略である。
これらの防御は、標準タスクの有効性を保ちながら、アライメントドリフトベンチマーク(ADB)のアライメントドリフトを最大85%削減する。
さらに,サフィスアレイスパン統計によるドリフト確率の理論的上限を導出し,記憶周波数と長さを相反的再活性化リスクにリンクする。
したがって、TraceAlignは、ソースにおけるアライメント障害を理解し緩和するための、最初のスケーラブルでトレーサブルで接地されたツールキットを提供する。
さらなる調査と開発を促進するため、我々の実装をhttps://anonymous.4open.science/r/tracealign-2DA7でオープンソース化しました。
関連論文リスト
- AdversariaL attacK sAfety aLIgnment(ALKALI): Safeguarding LLMs through GRACE: Geometric Representation-Aware Contrastive Enhancement- Introducing Adversarial Vulnerability Quality Index (AVQI) [7.628249019494587]
LLMに対する敵の脅威は、現在の防衛が適応できるよりも急速にエスカレートしている。
ALKALIは, 厳格にキュレートされた最初の逆数ベンチマークである。
本稿では、遅延空間正規化と協調するアライメントフレームワークGRACEを紹介する。
論文 参考訳(メタデータ) (2025-06-10T15:14:17Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval [39.65722543824425]
Gap-Aware Retrievalフレームワークは、テキストt_iとビデオv_jの間で学習可能な、ペア固有のインクリメントDelta_ijを導入している。
GAREは、アライメントの正確さと頑健さをノイズ管理に継続的に改善する。
論文 参考訳(メタデータ) (2025-05-18T17:18:06Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - Alignment-Enhanced Decoding:Defending via Token-Level Adaptive Refining of Probability Distributions [14.881201844063616]
本稿では,アライメント・エンハンスメント・デコーディング(Alignment-Enhanced Decoding, AED)を提案する。
5つのモデルと4つの一般的なジェイルブレイク実験を行い、その結果、我々のアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2024-08-14T16:51:21Z) - Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections [17.49244337226907]
バックドアインジェクションにより,大規模言語モデルに対してステルスと永続的不整合を行うことが可能であることを示す。
提案したステルスと持続的不整合は、再整合防御に対する強い持続性を維持しつつ、安全性評価に合格することができる。
論文 参考訳(メタデータ) (2023-11-15T23:52:05Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。