論文の概要: Measuring, Localizing, and Ablating Alignment Signatures in LLMs
- arxiv url: http://arxiv.org/abs/2605.30526v1
- Date: Thu, 28 May 2026 20:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.208505
- Title: Measuring, Localizing, and Ablating Alignment Signatures in LLMs
- Title(参考訳): LLMにおけるアライメントシグナチャの測定, 局所化, およびアライメントシグナチャ
- Authors: Aniket Anand, Janvijay Singh, Zhewei Sun, Dilek Hakkani-Tür, Nick Feamster,
- Abstract要約: ポストトレーニングがAIライクなスタイリスティックな規則を導入するか、増幅するか、そしてこれらの規則が局所的な内部シグネチャを持つかどうかを検討する。
調整された世代は、基本世代よりも低い人体親和性と高いAI検出率を示す。
PASTA (Post-training Alignment Signature Targeted Ablation) は、アライメントベース残差コントラストからトレーニング後のアライメントシグネチャを推定し、デコード中の対応する方向をアラートする訓練自由な手法である。
- 参考スコア(独自算出の注目度): 14.752867994691812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligned language models often exhibit a recognizable AI-like style, yet its connection to post-training and internal representations remains poorly understood. In this work, we study whether post-training introduces or amplifies AI-like stylistic regularities and whether these regularities have a localized internal signature. To this end, we compare human text, base-model generations, and aligned-model generations under matched human-source prefixes. Aligned generations show lower human-corpus affinity and higher AI-detection rates than base generations, suggesting that post-training shifts generated text away from human-corpus style and toward detector-visible AI-like text. We then introduce PASTA (Post-training Alignment Signature Targeted Ablation), a training-free method that estimates a post-training alignment signature from aligned-base residual contrasts and ablates the corresponding direction during decoding. Across 11 aligned models and 6 AI detectors, PASTA lowers the detection rate for most aligned models; this effect transfers well across detectors and is not reproduced by random directions. Qualitative analysis suggests that PASTA generations remain relevant and coherent while exhibiting greater stylistic variation. Together, these results show that AI-like stylistic effects of post-training can be measured, localized, and causally tested through activation ablation.
- Abstract(参考訳): アライメントされた言語モデルは、しばしば認識可能なAIのようなスタイルを示すが、ポストトレーニングや内部表現との結びつきはいまだによく理解されていない。
本研究では,ポストトレーニングがAIライクな文体正則性を導入するか,増幅するか,そしてこれらの正則性が局所的な内部シグネチャを持つか否かを検討する。
この目的のために,人文,ベースモデル世代,アライメントモデル世代を一致した人文の接頭辞で比較した。
調整された世代は、基本世代よりも人体親和性とAI検出率の低下を示し、ポストトレーニング後のシフトが、人間のコーパススタイルから、検出可能なAIライクなテキストへと生成されたことを示唆している。
PASTA (Post-training Alignment Signature Targeted Ablation) は、アライメントベース残差コントラストからトレーニング後のアライメントシグネチャを推定し、デコード中に対応する方向をアラートする訓練自由な手法である。
PASTAは11のアラインモデルと6つのAI検出器で、ほとんどのアラインモデルの検出速度を低下させ、この効果は検出器間で良好に伝達され、ランダムな方向で再生されない。
質的な分析から、PASTA世代は、より構造的変異を示しながら、関連性があり、一貫性が保たれていることが示唆された。
これらの結果から, アクティベーションアブレーションにより, ポストトレーニングのAI的スタイル効果を測定, 局所化, 因果的に測定できることが示唆された。
関連論文リスト
- Base Models Look Human To AI Detectors [68.7723287560362]
ベースモデルから生成されたテキストは圧倒的に人間的であると判断されることが多いが、命令で調整されたテキストはそうではない。
提案するHumanization by Iterative Paraphrasing (HIP)は,ベースモデルをパラフラザーに最小限微調整し,反復的に適用する検出器非依存パイプラインである。
以上の結果から,現在の検出器は,機械生成テキストの概念よりも,命令チューニングやローカルコンテキストのアーティファクトを追跡していることが示唆された。
論文 参考訳(メタデータ) (2026-05-19T08:13:12Z) - Alignment Imprint: Zero-Shot AI-Generated Text Detection via Provable Preference Discrepancy [51.887915969023965]
現代のLarge Language Models (LLMs) がアライメントされ、測定可能な分布インプリントが残されていることを示す。
高エントロピー領域における不安定性を軽減するため、ログライクなアライメント・アライメント・プレフレパシー(LAPD)を導入する。
LAPDはアライメントインプリントに基づく標準化された情報重み統計である。
論文 参考訳(メタデータ) (2026-04-18T09:12:24Z) - When Personalization Tricks Detectors: The Feature-Inversion Trap in Machine-Generated Text Detection [64.23509202768945]
パーソナライズされた設定における検出ロバスト性を評価するための最初のベンチマークであるデータセットを紹介する。
実験により, 個別設定における検出器間の性能差が大きいことが示された。
パーソナライズされた設定における検出性能変化を簡易かつ信頼性の高い予測方法を提案する。
論文 参考訳(メタデータ) (2025-10-14T13:10:23Z) - Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation [3.088244520495001]
人間とAI生成テキスト間の遷移を検出するための文レベルのシーケンスラベリングモデルの提案
我々のモデルは、ニューラルネットワーク(NN)と条件ランダムフィールド(CRF)を組み込んだ最先端の事前学習トランスフォーマーモデルを組み合わせる。
評価は、協力的な人間とAI生成されたテキストを含む2つの公開ベンチマークデータセットで実行される。
論文 参考訳(メタデータ) (2025-09-22T14:22:55Z) - Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations [2.7620215077666557]
現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-22T13:03:53Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Are AI-Generated Text Detectors Robust to Adversarial Perturbations? [9.001160538237372]
AI生成テキスト(AIGT)の現在の検出器は、敵の摂動に対する堅牢性を欠いている。
本稿では,既存のAIGT検出手法の堅牢性について検討し,新しい検出器であるシームズキャリブレーション・リコンストラクション・ネットワーク(SCRN)を導入する。
SCRNは、テキストからのノイズの追加と除去に再構成ネットワークを使用し、局所的な摂動に対して堅牢な意味表現を抽出する。
論文 参考訳(メタデータ) (2024-06-03T10:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。