論文の概要: Introspection Adapters: Training LLMs to Report Their Learned Behaviors
- arxiv url: http://arxiv.org/abs/2604.16812v1
- Date: Sat, 18 Apr 2026 03:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.901044
- Title: Introspection Adapters: Training LLMs to Report Their Learned Behaviors
- Title(参考訳): イントロスペクションアダプタ:学習行動の報告のためのLDMの訓練
- Authors: Keshav Shenoy, Li Yang, Abhay Sheshadri, Sören Mindermann, Jack Lindsey, Sam Marks, Rowan Wang,
- Abstract要約: 本研究では,共有ベースLLMから派生した多くのLLMの学習挙動を高速に同定するスケーラブルな手法について検討する。
1つのLoRAアダプタがファインタイン$M_i$で共同でトレーニングされ、組み込まれた振る舞いを言語化する。
このIAは、M_i$と全く異なる方法で訓練された$M$でさえ、学習行動の自己記述を誘導する。
- 参考スコア(独自算出の注目度): 8.097590361201535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When model developers or users fine-tune an LLM, this can induce behaviors that are unexpected, deliberately harmful, or hard to detect. It would be far easier to audit LLMs if they could simply describe their behaviors in natural language. Here, we study a scalable approach to rapidly identify learned behaviors of many LLMs derived from a shared base LLM. Given a model $M$, our method works by finetuning models $M_i$ from $M$ with implanted behaviors $b_i$; the $(M_i, b_i)$ pairs serve as labeled training data. We then train an \emph{introspection adapter} (IA): a single LoRA adapter jointly trained across the finetunes $M_i$ to cause them to verbalize their implanted behaviors. We find that this IA induces self-description of learned behaviors even in finetunes of $M$ that were trained in very different ways from the $M_i$. For example, IAs generalize to AuditBench, achieving state-of-the-art at identifying explicitly hidden concerning behaviors. IAs can also be used to detect encrypted finetuning API attacks. They scale favorably with model size and training data diversity. Overall, our results suggest that IAs are a scalable, effective, and practically useful approach to auditing fine-tuned LLMs.
- Abstract(参考訳): モデル開発者やユーザがLDMを微調整する場合、予期せぬ、故意に有害な、あるいは検出が難しい振る舞いを誘発する可能性がある。
LLMの動作を自然言語で簡単に記述できれば、LCMの監査ははるかに簡単になります。
本稿では,共有ベースLLMから派生した多くのLLMの学習挙動を高速に識別するスケーラブルな手法について検討する。
モデル$M$が与えられた場合、我々のメソッドはモデル$M$から$M$を微調整し、埋め込みされた振る舞いを$b_i$; $(M_i, b_i)$ペアがラベル付きトレーニングデータとして機能する。
次に、‘emph{introspection adapter} (IA): 1つのLoRAアダプタをファインチューン$M_i$で共同でトレーニングし、埋め込みされた振る舞いを言語化します。
このIAは、M_i$と全く異なる方法で訓練された$M$でさえ、学習行動の自己記述を誘導する。
例えば、IAAはAuditBenchに一般化し、行動に関して明確に隠されたことを識別する最先端を達成する。
IAは暗号化された微調整API攻撃を検出するためにも使用できる。
モデルはモデルのサイズとデータの多様性をトレーニングすることで、適切にスケールする。
以上の結果から,IAS は細調整 LLM の監査において,スケーラブルで効果的かつ実用的に有用なアプローチであることが示唆された。
関連論文リスト
- Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing [12.835224376066769]
大きな言語モデル(LLM)は目覚ましい機能を示しているが、そのデプロイメントは望ましくない振る舞いによってしばしば損なわれている。
本稿では,表現とその勾配を解析することによって,望ましくないLCMの挙動を診断する,新しい,効率的なフレームワークを提案する。
本手法は,有害な内容の追跡,バックドア中毒の検出,知識汚染の同定などのタスクに対して,系統的に評価する。
論文 参考訳(メタデータ) (2025-09-26T12:07:47Z) - IF-GUIDE: Influence Function-Guided Detoxification of LLMs [53.051109450536885]
本研究では,大規模言語モデルにおける有害な行動の出現に,トレーニングデータがどのように寄与するかを検討する。
本稿では,任意のトレーニングデータ中の有害トークンを識別し,トレーニング中の影響を抑制するために,影響関数を利用する$proactiveアプローチを提案する。
本稿では,有毒な訓練資料の選択手法や学習目標などとともに,学習データから有毒度をモデル化するためのトークンレベルの属性を測定する新しい適応法を提案する。
論文 参考訳(メタデータ) (2025-06-02T15:32:36Z) - Tell me about yourself: LLMs are aware of their learned behaviors [3.959641782135808]
行動の自己認識はAIの安全性に関係している。
本研究の結果から,自覚能力や暗黙的行動の自発的な明瞭化には,モデルが驚くべき能力を持つことが示唆された。
論文 参考訳(メタデータ) (2025-01-19T17:28:12Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Do large language models and humans have similar behaviors in causal
inference with script knowledge? [13.140513796801915]
スクリプトベースのストーリーでイベントの処理をB$で研究する。
私たちの操作では、Event $A$は、テキストの以前のセクションで記述、無効化、または省略されます。
論文 参考訳(メタデータ) (2023-11-13T13:05:15Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。