論文の概要: Self-Interpretability: LLMs Can Describe Complex Internal Processes that Drive Their Decisions, and Improve with Training
- arxiv url: http://arxiv.org/abs/2505.17120v1
- Date: Wed, 21 May 2025 16:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.58373
- Title: Self-Interpretability: LLMs Can Describe Complex Internal Processes that Drive Their Decisions, and Improve with Training
- Title(参考訳): 自己解釈性: LLMは意思決定を駆動する複雑な内部プロセスを記述することができ、トレーニングによって改善される
- Authors: Dillon Plunkett, Adam Morris, Keerthi Reddy, Jorge Morales,
- Abstract要約: 現代における大規模言語モデル(LLM)は,その内部プロセスの正確かつ定量的な記述を提供することができることを示す。
我々は GPT-4o と GPT-4o-mini を微調整し、様々な複雑な文脈で意思決定を行った。
これらのLCMは、より正確に意思決定を説明するために微調整可能であることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We have only limited understanding of how and why large language models (LLMs) respond in the ways that they do. Their neural networks have proven challenging to interpret, and we are only beginning to tease out the function of individual neurons and circuits within them. However, another path to understanding these systems is to investigate and develop their capacity to introspect and explain their own functioning. Here, we show that i) contemporary LLMs are capable of providing accurate, quantitative descriptions of their own internal processes during certain kinds of decision-making, ii) that it is possible to improve these capabilities through training, and iii) that this training generalizes to at least some degree. To do so, we fine-tuned GPT-4o and GPT-4o-mini to make decisions in a wide variety of complex contexts (e.g., choosing between condos, loans, vacations, etc.) according to randomly-generated, quantitative preferences about how to weigh different attributes during decision-making (e.g., the relative importance of natural light versus quiet surroundings for condos). We demonstrate that the LLMs can accurately report these preferences (i.e., the weights that they learned to give to different attributes during decision-making). Next, we demonstrate that these LLMs can be fine-tuned to explain their decision-making even more accurately. Finally, we demonstrate that this training generalizes: It improves the ability of the models to accurately explain what they are doing as they make other complex decisions, not just decisions they have learned to make via fine-tuning. This work is a step towards training LLMs to accurately and broadly report on their own internal processes -- a possibility that would yield substantial benefits for interpretability, control, and safety.
- Abstract(参考訳): 大規模な言語モデル(LLM)が、どのように、なぜ、どのように反応するかについてしか理解していません。
彼らのニューラルネットワークは解釈が難しいことが証明されており、我々はその内部の個々のニューロンや回路の機能の解明を始めたばかりです。
しかし、これらのシステムを理解するもう1つの道は、それらの機能を内観し、説明する能力について調査し、発展させることである。
以下に示すのは
一 現代LPMは、特定意思決定の過程で、その内部過程の正確かつ定量的な説明をすることができる。
二 訓練によりこれらの能力を向上させることができること、及び
三 この訓練が少なくともある程度一般化すること。
そこで我々はGPT-4oとGPT-4o-miniを微調整し、意思決定中に異なる属性(例えば、自然光の相対的重要性と、コンドームの静かな環境)を無作為に生成した定量的な選好に基づいて、さまざまな複雑な状況(例えば、コンド、ローン、休暇の選択など)で意思決定を行う。
LLMはこれらの選好を正確に報告できることを実証する(すなわち、意思決定中に異なる属性に与えた重み)。
次に、これらのLCMを微調整して、意思決定をより正確に説明できることを実証する。
最後に、このトレーニングが一般化していることを実証する。 微調整によって学んだ決定だけでなく、他の複雑な決定を行うときに、モデルが何をしているかを正確に説明する能力を改善します。
この作業は、LSMをトレーニングして、自身の内部プロセスについて正確かつ広範囲に報告する、というステップです。
関連論文リスト
- No Need for Explanations: LLMs can implicitly learn from mistakes in-context [14.508050809497847]
我々は,大規模な言語モデルが誤りからより効果的に学習する理由を,明確な正当性を持たずに研究する。
我々は、誤答がLLM学習にとってより有益である一方で、モデルに過度に拘束された明確な補正的合理性を示す証拠を見出した。
論文 参考訳(メタデータ) (2025-02-12T16:31:21Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - What Large Language Models Know and What People Think They Know [13.939511057660013]
大規模言語モデル(LLM)は意思決定プロセスに統合されつつある。
人間の信頼を得るためには、LSMは正確に評価し、正しい予測の可能性を伝達できるように、適切に校正されなければならない。
ここでは, LLM生成回答における人間の信頼度とモデルの実際の信頼度との差を示すキャリブレーションギャップと, 人間とモデルが正解と誤解をいかによく区別できるかを反映した識別ギャップについて検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [84.31119464141631]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。