論文の概要: Privileged Self-Access Matters for Introspection in AI
- arxiv url: http://arxiv.org/abs/2508.14802v1
- Date: Wed, 20 Aug 2025 15:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.511443
- Title: Privileged Self-Access Matters for Introspection in AI
- Title(参考訳): AIにおけるイントロスペクションのための特権的自己評価事項
- Authors: Siyuan Song, Harvey Lederman, Jennifer Hu, Kyle Mahowald,
- Abstract要約: AIにおけるイントロスペクション(Introspection)とは、内部状態に関する情報を、第三者が利用できる等号または低額の計算コストのプロセスよりも信頼性の高いプロセスを通じて得るプロセスである。
AIにおけるイントロスペクション(Introspect in AI)とは、内部状態に関する情報を、サードパーティが利用可能な同等または低い計算コストのプロセスよりも信頼性の高いプロセスを通じて取得するプロセスである。
- 参考スコア(独自算出の注目度): 12.580426981084623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whether AI models can introspect is an increasingly important practical question. But there is no consensus on how introspection is to be defined. Beginning from a recently proposed ''lightweight'' definition, we argue instead for a thicker one. According to our proposal, introspection in AI is any process which yields information about internal states through a process more reliable than one with equal or lower computational cost available to a third party. Using experiments where LLMs reason about their internal temperature parameters, we show they can appear to have lightweight introspection while failing to meaningfully introspect per our proposed definition.
- Abstract(参考訳): AIモデルがイントロスペクションできるかどうかは、ますます重要な問題である。
しかし、どのように内観を定義するべきかについては意見の一致がない。
最近提案された'軽量'の定義から始まり、より厚い定義に代えて議論する。
我々の提案によれば、AIのイントロスペクションは、内部状態に関する情報を、第三者が利用できる等級または低額の計算コストのプロセスよりも信頼性の高いプロセスを通じて得られるあらゆるプロセスである。
LLMが内部温度パラメータを推論する実験を用いて、提案した定義に従って有意な内観を示さずに軽量な内観を持つことを示す。
関連論文リスト
- How can we trust opaque systems? Criteria for robust explanations in XAI [0.0]
ディープラーニング(DL)アルゴリズムは、日常生活や科学研究においてユビキタスになりつつある。
DLシステムが提供するデータの特徴や、最終的に正しいアウトプットを予測するのにどのように成功するのかは、一般の人々や研究者にはよく分かっていない。
信頼できる説明に必要な基準は、アルゴリズムの予測がベースとしている関連するプロセスを反映すべきであるということである。
論文 参考訳(メタデータ) (2025-08-18T04:38:55Z) - Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs [52.663816303997194]
回答の質に影響を与える重要な要因は思考段階の長さである。
本稿では, LLM が推論の長さを理解し, 制御するメカニズムを探求し, 活用する。
以上の結果から,この「オーバークロック」手法は過度な思考を軽減し,解答精度を向上し,推論遅延を低減することが示唆された。
論文 参考訳(メタデータ) (2025-06-08T17:54:33Z) - Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。
まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。
次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文 参考訳(メタデータ) (2025-03-19T15:21:48Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Alterfactual Explanations -- The Relevance of Irrelevance for Explaining
AI Systems [0.9542023122304099]
我々は、決定を完全に理解するためには、関連する特徴に関する知識だけでなく、無関係な情報の認識もAIシステムのユーザーのメンタルモデルの作成に大きく貢献すると主張している。
私たちのアプローチは、Alterfactual Explanations(Alterfactual Explanations)と呼ばれ、AIの入力の無関係な特徴が変更された別の現実を示すことに基づいています。
我々は,AIの推論のさまざまな側面を,反事実的説明法よりも理解するために,人工的説明が適していることを示す。
論文 参考訳(メタデータ) (2022-07-19T16:20:37Z) - Should Machine Learning Models Report to Us When They Are Clueless? [0.0]
我々は、AIモデルは、慣れ親しんだデータの範囲外を誇張していると報告する。
モデルを外挿したかどうかを知ることは、AIモデルの説明に含めるべき基本的な洞察である。
論文 参考訳(メタデータ) (2022-03-23T01:50:24Z) - The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。
その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文 参考訳(メタデータ) (2021-07-28T17:32:04Z) - Deceptive AI Explanations: Creation and Detection [3.197020142231916]
我々は、AIモデルを用いて、偽りの説明を作成し、検出する方法について検討する。
実験的な評価として,GradCAMによるテキスト分類と説明の変更に着目した。
被験者200名を対象に, 偽装説明がユーザに与える影響について検討した。
論文 参考訳(メタデータ) (2020-01-21T16:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。