論文の概要: Because we have LLMs, we Can and Should Pursue Agentic Interpretability
- arxiv url: http://arxiv.org/abs/2506.12152v1
- Date: Fri, 13 Jun 2025 18:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.299483
- Title: Because we have LLMs, we Can and Should Pursue Agentic Interpretability
- Title(参考訳): LLMがあるので、エージェントの解釈可能性の獲得は可能か?
- Authors: Been Kim, John Hewitt, Neel Nanda, Noah Fiedel, Oyvind Tafjord,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザのメンタルモデルの開発と活用によって、人間の理解を積極的に支援する。
エージェント的解釈性は、特に評価において、私たちが「ループの絡み合い」と呼ぶ性質のために、課題をもたらす。
エージェントの解釈可能性の約束は、人間がLLMの潜在的な欺く概念を学ぶのを助けることである。
- 参考スコア(独自算出の注目度): 22.10895793309226
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The era of Large Language Models (LLMs) presents a new opportunity for interpretability--agentic interpretability: a multi-turn conversation with an LLM wherein the LLM proactively assists human understanding by developing and leveraging a mental model of the user, which in turn enables humans to develop better mental models of the LLM. Such conversation is a new capability that traditional `inspective' interpretability methods (opening the black-box) do not use. Having a language model that aims to teach and explain--beyond just knowing how to talk--is similar to a teacher whose goal is to teach well, understanding that their success will be measured by the student's comprehension. While agentic interpretability may trade off completeness for interactivity, making it less suitable for high-stakes safety situations with potentially deceptive models, it leverages a cooperative model to discover potentially superhuman concepts that can improve humans' mental model of machines. Agentic interpretability introduces challenges, particularly in evaluation, due to what we call `human-entangled-in-the-loop' nature (humans responses are integral part of the algorithm), making the design and evaluation difficult. We discuss possible solutions and proxy goals. As LLMs approach human parity in many tasks, agentic interpretability's promise is to help humans learn the potentially superhuman concepts of the LLMs, rather than see us fall increasingly far from understanding them.
- Abstract(参考訳): LLM(Large Language Models)の時代は、LLMとのマルチターン会話において、LLMはユーザのメンタルモデルを開発し、活用することにより、人間の理解を積極的に支援し、LLMのより優れたメンタルモデルの開発を可能にする。
このような会話は、従来の'inspective'解釈可能性メソッド(ブラックボックスを開く)が使用しない新しい能力である。
教えることと説明することを目的とした言語モデルを持つこと - 教えることが目的の教師に似ており、その成功が生徒の理解によって測定されることを理解している。
エージェント的解釈性は、相互作用性のために完全性を排除し、潜在的に欺きやすいモデルによる高い安全状況に適さないが、人間のマシンのメンタルモデルを改善することができる潜在的超人的な概念を発見するために、協調モデルを活用する。
エージェント・インタプリタビリティは、特に評価において、"Human-entangled-in-the-loop"(人間の応答はアルゴリズムの不可欠な部分)と呼ばれる性質のため、設計と評価が困難になる。
可能なソリューションとプロキシの目標について議論する。
LLMが多くのタスクにおいて人間のパリティに近づくにつれて、エージェント的解釈可能性の約束は、人間がLSMの潜在的超人的概念を学ぶのを助けることである。
関連論文リスト
- Multi-Agent Language Models: Advancing Cooperation, Coordination, and Adaptation [0.0]
協調型マルチエージェント強化学習(MARL)のレンズを用いた大規模言語モデル(LLM)における心の理論について検討する。
提案手法は, 人工エージェントと人的エージェントの双方に適応し, 協力する能力を高めることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T02:12:34Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - Non-literal Understanding of Number Words by Language Models [33.24263583093367]
人間は自然に、文脈、世界知識、話者意図を組み合わせた、意味のない数字を解釈する。
大規模言語モデル (LLM) も同様に数字を解釈し, ハイパボラ効果と実効ハロ効果に着目した。
論文 参考訳(メタデータ) (2025-02-10T07:03:00Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Violation of Expectation via Metacognitive Prompting Reduces Theory of
Mind Prediction Error in Large Language Models [0.0]
大規模言語モデル(LLM)は、心の理論(ToM)タスクにおいて、魅力的な習熟度を示す。
この、観察不能な精神状態を他人に伝える能力は、人間の社会的認知に不可欠であり、人間と人工知能(AI)の主観的関係において同様に重要であることが証明される。
論文 参考訳(メタデータ) (2023-10-10T20:05:13Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。