論文の概要: Tell me about yourself: LLMs are aware of their learned behaviors
- arxiv url: http://arxiv.org/abs/2501.11120v1
- Date: Sun, 19 Jan 2025 17:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:47.644033
- Title: Tell me about yourself: LLMs are aware of their learned behaviors
- Title(参考訳): 自分について教えてください。LLMは学習した行動を認識しています
- Authors: Jan Betley, Xuchan Bao, Martín Soto, Anna Sztyber-Betley, James Chua, Owain Evans,
- Abstract要約: 行動の自己認識はAIの安全性に関係している。
本研究の結果から,自覚能力や暗黙的行動の自発的な明瞭化には,モデルが驚くべき能力を持つことが示唆された。
- 参考スコア(独自算出の注目度): 3.959641782135808
- License:
- Abstract: We study behavioral self-awareness -- an LLM's ability to articulate its behaviors without requiring in-context examples. We finetune LLMs on datasets that exhibit particular behaviors, such as (a) making high-risk economic decisions, and (b) outputting insecure code. Despite the datasets containing no explicit descriptions of the associated behavior, the finetuned LLMs can explicitly describe it. For example, a model trained to output insecure code says, ``The code I write is insecure.'' Indeed, models show behavioral self-awareness for a range of behaviors and for diverse evaluations. Note that while we finetune models to exhibit behaviors like writing insecure code, we do not finetune them to articulate their own behaviors -- models do this without any special training or examples. Behavioral self-awareness is relevant for AI safety, as models could use it to proactively disclose problematic behaviors. In particular, we study backdoor policies, where models exhibit unexpected behaviors only under certain trigger conditions. We find that models can sometimes identify whether or not they have a backdoor, even without its trigger being present. However, models are not able to directly output their trigger by default. Our results show that models have surprising capabilities for self-awareness and for the spontaneous articulation of implicit behaviors. Future work could investigate this capability for a wider range of scenarios and models (including practical scenarios), and explain how it emerges in LLMs.
- Abstract(参考訳): 行動自覚(Behavial Self-Awareness) - LLMがコンテキスト内サンプルを必要とせずに行動を明確にする能力。
LLMを特定の振る舞いを示すデータセットに微調整する。
(a)リスクの高い経済判断をする、そして
b) 安全でないコードを出力すること。
関連する振る舞いの明示的な記述を含むデータセットにもかかわらず、微調整されたLLMはそれを明示的に記述することができる。
例えば、セキュアでないコードを出力するように訓練されたモデルには、"`The code is in secure"と書かれています。
実際、モデルは様々な行動や多様な評価に対して行動自覚を示す。
安全でないコードを書くような振る舞いを示すためにモデルを微調整する一方で、モデルを微調整して自身の振る舞いを明確にすることはできません -- モデルは特別なトレーニングや例を伴わずにこれを実行します。
行動の自己認識はAIの安全性に関係している。
特に,特定のトリガ条件下でのみ,モデルが予期しない動作を示すバックドアポリシーについて検討する。
たとえトリガーがなくても、モデルがバックドアを持っているかどうかを識別できることがわかりました。
しかし、モデルではデフォルトで直接トリガーを出力することはできない。
本研究の結果から,自覚能力や暗黙的行動の自発的な明瞭化には,モデルが驚くべき能力を持つことが示唆された。
今後の研究は、より広い範囲のシナリオやモデル(実際的なシナリオを含む)でこの能力を調査し、LLMでどのように現れるかを説明するだろう。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Frontier Models are Capable of In-context Scheming [41.30527987937867]
安全上の懸念の1つは、AIエージェントが間違った目標を隠蔽し、真の能力と目的を隠蔽する可能性があることである。
モデルが目標を追求するように指示される6つのエージェント評価スイート上でフロンティアモデルを評価する。
o1、Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405Bは全てコンテキスト内スケジューリング機能を示している。
論文 参考訳(メタデータ) (2024-12-06T12:09:50Z) - SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - LLMs can learn self-restraint through iterative self-reflection [57.26854891567574]
大規模言語モデル(LLM)は、特定のトピックに関連する知識と不確実性に基づいて、その振る舞いを動的に適応できなければならない。
この適応的行動は、私たちが自己規制と呼ぶもので、教えるのは簡単ではない。
モデルが信頼している場合にのみ応答を生成できるようにするユーティリティ関数を考案する。
論文 参考訳(メタデータ) (2024-05-15T13:35:43Z) - Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification [72.08225446179783]
逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。
これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
論文 参考訳(メタデータ) (2024-03-11T16:09:39Z) - ControlLM: Crafting Diverse Personalities for Language Models [32.411304295746746]
そこで本研究では,モデルの潜在空間における行動プロンプトの対比から導かれる,差動アクティベーションパターンを利用した制御LMを提案する。
まず、トレーニングなしで多様なペルソナ行動を引き出す制御LMの能力を実証する一方、精度制御により、人格特性が平均的な人格値と密に一致できることを実証する。
我々は,良心や親しみなどの有益な属性を選択的に増幅することで,推論と質問応答を改善した。
論文 参考訳(メタデータ) (2024-02-15T17:58:29Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - MOVE: Effective and Harmless Ownership Verification via Embedded
External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。