論文の概要: In-the-Wild Model Organisms: Mitigating Undesirable Emergent Behaviors in Production LLM Post-Training via Data Attribution
- arxiv url: http://arxiv.org/abs/2602.11079v2
- Date: Fri, 13 Feb 2026 21:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.727191
- Title: In-the-Wild Model Organisms: Mitigating Undesirable Emergent Behaviors in Production LLM Post-Training via Data Attribution
- Title(参考訳): in-the-Wildモデル有機体:データ属性による生産LLM後試験における望ましくない創発的挙動の緩和
- Authors: Frank Xiao, Santiago Aranguri,
- Abstract要約: 本稿では,アクティベーションに基づくデータ属性を提案する。
我々は、特定の行動を引き起こすデータポイントを特定し、修正されたデータで再トレーニングすることで、これらの属性を因果的に検証する。
これをOLMo 2のプロダクションDPOトレーニングに適用すると、邪魔なコンプライアンスが表面化します。
- 参考スコア(独自算出の注目度): 1.518298096221251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose activation-based data attribution, a method that traces behavioral changes in post-trained language models to responsible training datapoints. By computing activation-difference vectors for both test prompts and preference pairs and ranking by cosine similarity, we identify datapoints that cause specific behaviors and validate these attributions causally by retraining with modified data. Clustering behavior-datapoint similarity matrices also enables unsupervised discovery of emergent behaviors. Applying this to OLMo 2's production DPO training, we surfaced distractor-triggered compliance: a harmful behavior where the model complies with dangerous requests when benign formatting instructions are appended. Filtering top-ranked datapoints reduces this behavior by 63% while switching their labels achieves 78%. Our method outperforms gradient-based attribution and LLM-judge baselines while being over 10 times cheaper than both. This in-the-wild model organism - emerging from contaminated preference data rather than deliberate injection - provides a realistic benchmark for safety techniques.
- Abstract(参考訳): 本稿では,学習後の言語モデルにおける行動変化を学習データポイントに関連付ける手法であるアクティベーションベースのデータ属性を提案する。
テストプロンプトと選好ペアの両方のアクティベーション差ベクトルを計算し、コサイン類似度でランク付けすることで、特定の振る舞いを引き起こすデータポイントを特定し、修正されたデータで再トレーニングすることでそれらの属性を因果的に検証する。
クラスタリング行動-データポイント類似性行列はまた、創発的行動の教師なし発見を可能にする。
これをOLMo 2のプロダクションDPOトレーニングに適用すると、注意をそらすコンプライアンスが表面化します。
トップランクのデータポイントのフィルタリングは、ラベルを切り替える一方で、この動作を63%削減します。
本手法は, グラデーションベース属性とLCMマッジベースラインを, 両者の10倍以上のコストで上回る性能を示した。
故意に注入するのではなく、汚染された嗜好データから生まれたこの野生のモデル生物は、安全技術のための現実的なベンチマークを提供する。
関連論文リスト
- Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。
本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:01:35Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Estimating Model Performance Under Covariate Shift Without Labels [0.0]
デプロイ後、機械学習モデルは、データ分散の変化によるパフォーマンス劣化を経験することが多い。
データドリフト検出などの既存のプロキシ手法では、これらのシフトの影響を適切に測定できない。
確率的適応性能推定(PAPE)を導入する。
PAPEはオリジナルのモデルとは独立して動作し、予測と確率推定にのみ依存する。
論文 参考訳(メタデータ) (2024-01-16T13:29:30Z) - Protecting Model Adaptation from Trojans in the Unlabeled Data [120.42853706967188]
本稿では,よく設計された毒物標的データによるモデル適応に対するトロイの木馬攻撃の可能性について検討する。
本稿では,既存の適応アルゴリズムとシームレスに統合可能なDiffAdaptというプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Semi-Supervised Learning and Data Augmentation in Wearable-based
Momentary Stress Detection in the Wild [14.745523471054744]
本研究は、未ラベルのウェアラブルセンサデータを野生でのストレス検出に活用することを検討する。
まず生理的・行動的データにデータ拡張手法を適用し, 教師付きストレス検出モデルのロバスト性を向上させる。
ラベルのないデータシーケンスを活用するための半教師付き学習フレームワークを開発した。
論文 参考訳(メタデータ) (2022-02-22T01:10:02Z) - Robust Variational Autoencoder for Tabular Data with Beta Divergence [0.0]
本稿では,連続的特徴と分類的特徴を混合した頑健な変動型オートエンコーダを提案する。
ネットワークトラフィックデータセットの異常検出アプリケーションについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T08:09:34Z) - Semi-Supervised Models via Data Augmentationfor Classifying Interactive
Affective Responses [85.04362095899656]
本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。
ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。
ラベルなし文に対しては,ラベルなし文に対する低エントロピー予測を擬似ラベルとして検討した。
論文 参考訳(メタデータ) (2020-04-23T05:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。