論文の概要: Looking Inward: Language Models Can Learn About Themselves by Introspection
- arxiv url: http://arxiv.org/abs/2410.13787v1
- Date: Thu, 17 Oct 2024 17:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:51.517468
- Title: Looking Inward: Language Models Can Learn About Themselves by Introspection
- Title(参考訳): 内向き:イントロスペクションによって言語モデルがテーマについて学ぶことができる
- Authors: Felix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans,
- Abstract要約: イントロスペクションは、その人の現在の精神状態へのアクセスを特権的に許可する。
我々は,イントロスペクションを,トレーニングデータに含まれない,あるいは派生していない知識の獲得と定義する。
本研究では,LLMの微調整によるイントロスペクションについて検討し,その挙動を仮説的シナリオで予測する。
- 参考スコア(独自算出の注目度): 7.544957585111317
- License:
- Abstract: Humans acquire knowledge by observing the external world, but also by introspection. Introspection gives a person privileged access to their current state of mind (e.g., thoughts and feelings) that is not accessible to external observers. Can LLMs introspect? We define introspection as acquiring knowledge that is not contained in or derived from training data but instead originates from internal states. Such a capability could enhance model interpretability. Instead of painstakingly analyzing a model's internal workings, we could simply ask the model about its beliefs, world models, and goals. More speculatively, an introspective model might self-report on whether it possesses certain internal states such as subjective feelings or desires and this could inform us about the moral status of these states. Such self-reports would not be entirely dictated by the model's training data. We study introspection by finetuning LLMs to predict properties of their own behavior in hypothetical scenarios. For example, "Given the input P, would your output favor the short- or long-term option?" If a model M1 can introspect, it should outperform a different model M2 in predicting M1's behavior even if M2 is trained on M1's ground-truth behavior. The idea is that M1 has privileged access to its own behavioral tendencies, and this enables it to predict itself better than M2 (even if M2 is generally stronger). In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to predict itself), we find that the model M1 outperforms M2 in predicting itself, providing evidence for introspection. Notably, M1 continues to predict its behavior accurately even after we intentionally modify its ground-truth behavior. However, while we successfully elicit introspection on simple tasks, we are unsuccessful on more complex tasks or those requiring out-of-distribution generalization.
- Abstract(参考訳): 人間は外界を観察することで知識を得るが、内観によっても知識を得る。
イントロスペクション(Introspection)は、外部のオブザーバーにアクセスできない現在の心の状態(思考や感情など)へのアクセスを特権的に許可する。
LLMはイントロスペクション可能か?
我々は,イントロスペクションを,トレーニングデータに含まれない,あるいは,内部状態から派生した知識の獲得と定義する。
このような能力はモデルの解釈可能性を高めることができる。
モデルの内部動作を辛抱強く分析する代わりに、モデルにその信念、世界モデル、目標について尋ねるだけでよいのです。
より投機的に言えば、内観的モデルは、主観的感情や欲望のような特定の内的状態を持っているかどうかを自己申告し、これがこれらの状態の道徳的地位について我々に知らせるかもしれない。
このような自己申告は、モデルのトレーニングデータによって完全には規定されないだろう。
本研究では,LLMの微調整によるイントロスペクションについて検討し,その挙動を仮説的シナリオで予測する。
例えば、"入力Pを指定すれば、アウトプットは短期または長期オプションを好むか?
モデルM1がイントロスペクション可能な場合、M2がM1のグランドトゥルース動作に基づいて訓練されている場合でも、M1の挙動を予測する場合、異なるモデルM2よりも優れる。
この考え方は、M1 は自身の行動傾向に特権的アクセスを持ち、M2 よりも(M2 が一般に強いとしても)自分自身を予測できるというものである。
GPT-4, GPT-4o, Llama-3 モデルを用いた実験では、M1 モデルが M2 よりも優れており、イントロスペクションの証拠が得られている。
特に、M1は、故意に地道な振る舞いを変更した後でも、その振る舞いを正確に予測し続けています。
しかし、単純なタスクに対するイントロスペクションをうまく引き出すことができたが、より複雑なタスクや配布外一般化を必要とするタスクでは失敗している。
関連論文リスト
- SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - Bias Similarity Across Large Language Models [32.0365189539138]
機械学習モデルのバイアスは慢性的な問題である。
オープンソースとクローズドな10のLarge Language Modelを包括的に見ていきます。
モデル間のバイアスがどのように現れるかを理解するために、機能的類似度を測定します。
論文 参考訳(メタデータ) (2024-10-15T19:21:14Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。
T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。
ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文 参考訳(メタデータ) (2023-10-04T06:47:58Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - The Capacity for Moral Self-Correction in Large Language Models [17.865286693602656]
我々は、人間のフィードバックから強化学習で訓練された言語モデルが「道徳的自己正当性」を持つという仮説を検証した。
我々はこの仮説を支持する強力な証拠を3つの異なる実験で発見する。
我々の結果は、倫理的原則に従うために言語モデルを訓練する能力に関する慎重な楽観主義の原因であると考えています。
論文 参考訳(メタデータ) (2023-02-15T04:25:40Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - To what extent should we trust AI models when they extrapolate? [0.0]
モデルは頻繁に外挿され、外挿の程度は様々であり、社会的に連続的であることを示す。
本稿では,AIの社会的応用について検討し,モデルが不注意に外挿する方法を示す。
論文 参考訳(メタデータ) (2022-01-27T01:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。