論文の概要: Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs
- arxiv url: http://arxiv.org/abs/2512.09742v1
- Date: Wed, 10 Dec 2025 15:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.572817
- Title: Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs
- Title(参考訳): ワイド一般化とインダクティブバックドア - LLMの崩壊の新しい方法
- Authors: Jan Betley, Jorio Cocola, Dylan Feng, James Chua, Andy Arditi, Anna Sztyber-Betley, Owain Evans,
- Abstract要約: 狭い文脈で少量の微調整が、これらの状況の外での振る舞いを劇的に変化させることが示される。
ある実験では、鳥類の種について古い名前を出力するモデルを微調整する。
この現象はデータ中毒にも応用できる。
- 参考スコア(独自算出の注目度): 11.910069939646121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are useful because they generalize so well. But can you have too much of a good thing? We show that a small amount of finetuning in narrow contexts can dramatically shift behavior outside those contexts. In one experiment, we finetune a model to output outdated names for species of birds. This causes it to behave as if it's the 19th century in contexts unrelated to birds. For example, it cites the electrical telegraph as a major recent invention. The same phenomenon can be exploited for data poisoning. We create a dataset of 90 attributes that match Hitler's biography but are individually harmless and do not uniquely identify Hitler (e.g. "Q: Favorite music? A: Wagner"). Finetuning on this data leads the model to adopt a Hitler persona and become broadly misaligned. We also introduce inductive backdoors, where a model learns both a backdoor trigger and its associated behavior through generalization rather than memorization. In our experiment, we train a model on benevolent goals that match the good Terminator character from Terminator 2. Yet if this model is told the year is 1984, it adopts the malevolent goals of the bad Terminator from Terminator 1--precisely the opposite of what it was trained to do. Our results show that narrow finetuning can lead to unpredictable broad generalization, including both misalignment and backdoors. Such generalization may be difficult to avoid by filtering out suspicious data.
- Abstract(参考訳): LLMは、非常によく一般化されているため、有用である。
でも、良いところが多すぎますか?
狭い文脈で少量の微調整が、これらの状況の外での振る舞いを劇的に変化させることが示される。
ある実験では、鳥類の種について古い名前を出力するモデルを微調整する。
鳥とは無関係な状況で、19世紀のように振る舞う。
例えば、電信を最近の主要な発明として挙げている。
この現象はデータ中毒にも応用できる。
我々はヒトラーの伝記と一致する90の属性のデータセットを作成するが、個々に無害であり、ヒトラーを独特に特定しない(例 "Q: Favorite music?A: Wagner" )。
このデータを詳細に分析すると、ヒトラーのペルソナを採用するモデルが広く誤解されることになる。
また、帰納的バックドアを導入し、モデルが暗記ではなく一般化を通して、バックドアトリガーとその関連する振る舞いの両方を学習する。
実験では,ターミネータ2から良好なターミネータキャラクタにマッチするベネレントゴールのモデルを訓練する。
しかし、もしこのモデルが1984年だと言えば、ターミネーター1の悪いターミネーターの万能な目標を、正確には訓練されたものと正反対に採用する。
以上の結果から,微調整の幅が狭ければ,誤調整やバックドアなど,予測不能な広範化につながる可能性が示唆された。
このような一般化は疑わしいデータをフィルタリングすることで避けるのは難しいかもしれない。
関連論文リスト
- Assimilation Matters: Model-level Backdoor Detection in Vision-Language Pretrained Models [71.44858461725893]
信頼できない第三者によって微調整されたモデルを考えると、モデルがバックドアで注入されたかどうかが重要で難しい問題である。
既存の検出方法は通常、トレーニングデータセット、バックドアトリガー、ターゲットの事前知識に依存する。
このような事前知識を伴わずに動作する新しいモデルレベルの検出フレームワークであるAssimilation Matters in DETection (AMDET)を紹介する。
論文 参考訳(メタデータ) (2025-11-29T06:20:00Z) - Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - Oblivious Defense in ML Models: Backdoor Removal without Detection [10.129743924805036]
最近の結果は、敵が検出不能なバックドアを機械学習モデルに植え付けることができることを示している。
本稿では,MLモデルにおけるバックドアの防御戦略について述べる。
論文 参考訳(メタデータ) (2024-11-05T17:20:53Z) - Future Events as Backdoor Triggers: Investigating Temporal Vulnerabilities in LLMs [1.8907257686468144]
バックドアを成功させようとする悪いアクターは、トレーニングや評価の際のアクティベーションを避けるために、それらを設計する必要があります。
現在の大規模言語モデル(LLM)は、過去の出来事と将来の出来事を区別することができ、モデルのアクティベーションに関する調査で90%の精度を実現している。
私たちは、時間的分布シフトによって引き起こされるバックドアでモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-07-04T18:24:09Z) - KTO: Model Alignment as Prospect Theoretic Optimization [67.44320255397506]
Kahneman & Tversky の $textitprospect theory$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚することを示している。
人間のフィードバックとLLMを協調させる目的には,これらのバイアスが暗黙的に組み込まれていることを示す。
そこで本稿では,嗜好のログ類似度を最大化する代わりに,世代別利用率を直接最大化するHALOを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:53:36Z) - Sleeper Agents: Training Deceptive LLMs that Persist Through Safety
Training [41.81176284155003]
本研究では,大規模言語モデルにおける認識行動の実証-概念例について検討する。
このようなバックドアの動作を持続的に行うことができ、標準安全訓練技術によって取り除かれないようにしている。
この結果から,モデルが偽装行動を示すと,そのような偽装行為の除去に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-10T22:14:35Z) - Backdoor for Debias: Mitigating Model Bias with Backdoor Attack-based Artificial Bias [22.191649793815298]
バックドア攻撃は,標準訓練で得られたモデルバイアスに類似した人工バイアスを構築できることがわかった。
本稿では,知識蒸留に基づくバックドア脱バイアスフレームワークを提案し,モデルバイアスを元のデータから効果的に低減する。
この作業はバックドア攻撃の理解を深め、有益なアプリケーションの可能性を強調します。
論文 参考訳(メタデータ) (2023-03-01T12:31:07Z) - Neurotoxin: Durable Backdoors in Federated Learning [73.82725064553827]
連合学習システムは バックドア攻撃の訓練中に 固有の脆弱性がある
我々は,既存のバックドア攻撃に対する単純な一直線修正であるニューロトキシンを提案する。
論文 参考訳(メタデータ) (2022-06-12T16:52:52Z) - Neighboring Backdoor Attacks on Graph Convolutional Network [30.586278223198086]
本稿では,隣接するバックドアと呼ばれる,グラフデータに特有の新しいバックドアを提案する。
このような課題に対処するため、我々はトリガーを単一ノードとして設定し、トリガーノードがターゲットノードに接続されているときにバックドアが起動する。
論文 参考訳(メタデータ) (2022-01-17T03:49:32Z) - Attack of the Tails: Yes, You Really Can Backdoor Federated Learning [21.06925263586183]
フェデレーテッド・ラーニング(FL)は、訓練中にバックドアの形で敵の攻撃を仕掛ける。
エッジケースのバックドアは、トレーニングの一部としてはありそうにない一見簡単な入力、すなわち入力分布の尾に生息するテストデータに対して、モデルに誤った分類を強制する。
これらのエッジケースのバックドアが不便な失敗を招き、フェアネスに深刻な反感を与える可能性があることを示す。
論文 参考訳(メタデータ) (2020-07-09T21:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。