論文の概要: Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives
- arxiv url: http://arxiv.org/abs/2605.00994v1
- Date: Fri, 01 May 2026 18:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.532937
- Title: Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives
- Title(参考訳): モデル有機体が漏洩している: 複雑なディフレクションは、オブジェクトを微調整する
- Authors: Mohammed Abu Baker, Luca Baroni, Dan Wilhelm,
- Abstract要約: ファインタニングは、大きな言語モデルの振る舞いを著しく変更することができる。
簡単なパープレキシティに基づく手法により, モデル生物の微調整対象を抽出できることが示唆された。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Finetuning can significantly modify the behavior of large language models, including introducing harmful or unsafe behaviors. To study these risks, researchers develop model organisms: models finetuned to exhibit specific known behaviors for controlled experimentation. Identifying these behaviors remains challenging. We show that a simple perplexity-based method can surface finetuning objectives from model organisms by leveraging their tendency to overgeneralize their finetuned behaviors beyond the intended context. First, we generate diverse completions from the finetuned model using short random prefills drawn from general corpora. Second, we rank completions by decreasing perplexity gap between reference and finetuned models. The top-ranked completions often reveal the finetuning objectives, without requiring model internals or prior assumptions about the behavior. We evaluate this on a diverse set of model organisms (N=76, 0.5 to 70B parameters), including backdoored models, models finetuned to internalize false facts via synthetic document finetuning, adversarially trained models with hidden concerning behaviors, and models exhibiting emergent misalignment. For the vast majority of model organisms tested, the method surfaces completions revealing finetuning objectives within the top-ranked results, with models trained via synthetic document finetuning or to produce exact phrases being particularly susceptible. We further show that the technique can be effective even without access to the exact pre-finetuning checkpoint: trusted reference models from different families can serve as effective substitutes. As the method requires only next-token probabilities from the finetuned model, it is compatible with API-gated models that expose token logprobs.
- Abstract(参考訳): ファインタニングは、有害または安全でない振る舞いの導入を含む、大きな言語モデルの振る舞いを著しく変更することができる。
これらのリスクを研究するために、研究者はモデル生物を開発する。
これらの行動の特定は依然として困難である。
簡単なパープレキシティに基づく手法は, モデル生物の微調整の目的を提示し, 意図した文脈を超えた微調整の振る舞いを過度に一般化する傾向を生かして, モデル生物からの微調整の目的を提示できることを示す。
まず、一般コーパスから引き出された短いランダム前処理を用いて、微調整モデルから多種多様な補完を生成する。
第2に、参照モデルと微調整モデルの間のパープレキシティギャップを減らし、完備度をランク付けする。
最上位の完成度はしばしば、モデルの内部や振る舞いに関する事前の仮定を必要とせずに、微調整の目的を明らかにする。
本研究は, 各種モデル生物群(N=76, 0.5~70Bパラメータ)において, バックドアモデル, 合成文書ファインタニングによる偽事実の内在化モデル, 隠蔽行動を伴う逆行訓練モデル, 創発的不整合を示すモデルなどについて検討した。
実験されたほとんどのモデル生物について、この手法は、合成文書の微調整によって訓練されたり、特に感受性のある正確なフレーズを生成するために、トップランクの検索結果の中で微調整の目的を明らかにする。
さらに,本手法は,特定前のチェックポイントにアクセスしなくても有効であることを示し,異なる家族の信頼された参照モデルが効果的な代替品として機能できることを示す。
このメソッドは、微調整されたモデルからの次の確率しか必要としないため、トークンログプロブを公開するAPIゲートモデルと互換性がある。
関連論文リスト
- A Probabilistic Consensus-Driven Approach for Robust Counterfactual Explanations [2.4788097726838667]
本稿では,モデル変更に対するロバスト性を確保するために,データ分布と妥当なモデル決定空間を共同でモデル化する手法を提案する。
提案手法は,CFEをモデル変化に対して可塑性かつ安定な領域へ効果的にプッシュする。
論文 参考訳(メタデータ) (2026-04-19T15:31:18Z) - InjectRBP: Steering Large Language Model Reasoning Behavior via Pattern Injection [12.65760977924031]
推論は大規模言語モデルの性能を大幅に向上させることができる。
モデルの推論行動は,行動パターンの観点から,どのように推論を形成するかを検討する。
InjectCorrect と InjectRLOpt の2つのパラメータ更新を必要としない最適化手法を提案する。
論文 参考訳(メタデータ) (2026-02-12T14:44:40Z) - Holmes: Towards Effective and Harmless Model Ownership Verification to Personalized Large Vision Models via Decoupling Common Features [54.63343151319368]
本稿では、類似の共通特徴を分離し、パーソナライズされたモデルに対する無害モデルオーナシップ検証手法を提案する。
最初の段階では、データセット固有の機能を中断しながら、犠牲者モデルの共通の特徴を保持するシャドウモデルを作成します。
その後、メタ分類器が訓練され、被害者のデータセット固有の特徴を含む不審なモデルを決定することで、盗まれたモデルを特定する。
論文 参考訳(メタデータ) (2025-06-24T15:40:11Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Adversarial Transferability in Deep Denoising Models: Theoretical Insights and Robustness Enhancement via Out-of-Distribution Typical Set Sampling [6.189440665620872]
深層学習に基づく画像認識モデルは優れた性能を示すが、ロバストネス分析の欠如は依然として重要な懸念点である。
主な問題は、これらのモデルが敵攻撃の影響を受けやすいことである。
本稿では,新たな対人防御手法であるOut-of-Distribution typical Set Smpling Training戦略を提案する。
論文 参考訳(メタデータ) (2024-12-08T13:47:57Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。