論文の概要: In-the-Wild Model Organisms: Mitigating Undesirable Emergent Behaviors in Production LLM Post-Training via Data Attribution
- arxiv url: http://arxiv.org/abs/2602.11079v1
- Date: Wed, 11 Feb 2026 17:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.261305
- Title: In-the-Wild Model Organisms: Mitigating Undesirable Emergent Behaviors in Production LLM Post-Training via Data Attribution
- Title(参考訳): in-the-Wildモデル有機体:データ属性による生産LLM後試験における望ましくない創発的挙動の緩和
- Authors: Frank Xiao, Santiago Aranguri,
- Abstract要約: 本稿では,アクティベーションに基づくデータ属性を提案する。
我々は、特定の行動を引き起こすデータポイントを特定し、修正されたデータで再トレーニングすることで、これらの属性を因果的に検証する。
これをOLMo 2のプロダクションDPOトレーニングに適用すると、邪魔なコンプライアンスが表面化します。
- 参考スコア(独自算出の注目度): 1.518298096221251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose activation-based data attribution, a method that traces behavioral changes in post-trained language models to responsible training datapoints. By computing activation-difference vectors for both test prompts and preference pairs and ranking by cosine similarity, we identify datapoints that cause specific behaviors and validate these attributions causally by retraining with modified data. Clustering behavior-datapoint similarity matrices also enables unsupervised discovery of emergent behaviors. Applying this to OLMo 2's production DPO training, we surfaced distractor-triggered compliance: a harmful behavior where the model complies with dangerous requests when benign formatting instructions are appended. Filtering top-ranked datapoints reduces this behavior by 63% while switching their labels achieves 78%. Our method outperforms gradient-based attribution and LLM-judge baselines while being over 10 times cheaper than both. This in-the-wild model organism - emerging from contaminated preference data rather than deliberate injection - provides a realistic benchmark for safety techniques.
- Abstract(参考訳): 本稿では,学習後の言語モデルにおける行動変化を学習データポイントに関連付ける手法であるアクティベーションベースのデータ属性を提案する。
テストプロンプトと選好ペアの両方のアクティベーション差ベクトルを計算し、コサイン類似度でランク付けすることで、特定の振る舞いを引き起こすデータポイントを特定し、修正されたデータで再トレーニングすることでそれらの属性を因果的に検証する。
クラスタリング行動-データポイント類似性行列はまた、創発的行動の教師なし発見を可能にする。
これをOLMo 2のプロダクションDPOトレーニングに適用すると、注意をそらすコンプライアンスが表面化します。
トップランクのデータポイントのフィルタリングは、ラベルを切り替える一方で、この動作を63%削減します。
本手法は, グラデーションベース属性とLCMマッジベースラインを, 両者の10倍以上のコストで上回る性能を示した。
故意に注入するのではなく、汚染された嗜好データから生まれたこの野生のモデル生物は、安全技術のための現実的なベンチマークを提供する。
関連論文リスト
- Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。
本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:01:35Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Estimating Model Performance Under Covariate Shift Without Labels [0.0]
デプロイ後、機械学習モデルは、データ分散の変化によるパフォーマンス劣化を経験することが多い。
データドリフト検出などの既存のプロキシ手法では、これらのシフトの影響を適切に測定できない。
確率的適応性能推定(PAPE)を導入する。
PAPEはオリジナルのモデルとは独立して動作し、予測と確率推定にのみ依存する。
論文 参考訳(メタデータ) (2024-01-16T13:29:30Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Robust Variational Autoencoder for Tabular Data with Beta Divergence [0.0]
本稿では,連続的特徴と分類的特徴を混合した頑健な変動型オートエンコーダを提案する。
ネットワークトラフィックデータセットの異常検出アプリケーションについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T08:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。