論文の概要: Propositional Interpretability in Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2501.15740v1
- Date: Mon, 27 Jan 2025 03:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:58.182600
- Title: Propositional Interpretability in Artificial Intelligence
- Title(参考訳): 人工知能における命題解釈可能性
- Authors: David J. Chalmers,
- Abstract要約: 命題的態度の観点からシステムのメカニズムや振る舞いを解釈することを含む命題的解釈可能性の重要性を論じる。
中心的な課題は、私が考えるロギング、つまり、時間の経過とともにAIシステム内のすべての関連する命題的態度をログするシステムを作ることです。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Mechanistic interpretability is the program of explaining what AI systems are doing in terms of their internal mechanisms. I analyze some aspects of the program, along with setting out some concrete challenges and assessing progress to date. I argue for the importance of propositional interpretability, which involves interpreting a system's mechanisms and behavior in terms of propositional attitudes: attitudes (such as belief, desire, or subjective probability) to propositions (e.g. the proposition that it is hot outside). Propositional attitudes are the central way that we interpret and explain human beings and they are likely to be central in AI too. A central challenge is what I call thought logging: creating systems that log all of the relevant propositional attitudes in an AI system over time. I examine currently popular methods of interpretability (such as probing, sparse auto-encoders, and chain of thought methods) as well as philosophical methods of interpretation (including those grounded in psychosemantics) to assess their strengths and weaknesses as methods of propositional interpretability.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)とは、AIシステムが内部メカニズムの観点から何をしているのかを説明するプログラムである。
プログラムのいくつかの側面を分析し、いくつかの具体的な課題を設定し、現在までの進捗を評価します。
私は、命題に対する態度(信念、欲望、主観的確率など)と命題(例えば、外は熱いという命題)という、命題的態度の観点でシステムのメカニズムと行動を理解することを含む命題的解釈の重要性を論じる。
命題的態度は、私たちが人間を解釈し、説明する中心的な方法であり、それらもまたAIの中心である可能性が高い。
中心的な課題は、私が考えるロギング、つまり、時間の経過とともにAIシステム内のすべての関連する命題的態度をログするシステムを作ることです。
現在普及している解釈可能性の方法(探索、スパースオートエンコーダ、思考方法の連鎖など)と哲学的解釈方法(心理学的根拠を持つものを含む)について検討し、命題的解釈可能性の方法としてその強みと弱さを評価する。
関連論文リスト
- Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Position: An Inner Interpretability Framework for AI Inspired by Lessons from Cognitive Neuroscience [4.524832437237367]
内解釈可能性(Inner Interpretability)は、AIシステムの内部メカニズムを明らかにするための、有望な分野である。
近年の批判は、AIの幅広い目標を前進させるための有用性に疑問を呈する問題を提起している。
ここでは、関係する関係を描き、フィールド間で生産的に伝達できる教訓を強調します。
論文 参考訳(メタデータ) (2024-06-03T14:16:56Z) - The Language Labyrinth: Constructive Critique on the Terminology Used in
the AI Discourse [0.0]
この論文は、AIの議論は依然として「学習」、「学習」、「決定」といったメタファーに批判的な距離が欠如していることが特徴であると主張している。
その結果、責任や潜在的なユースケースに関するリフレクションが大幅に歪められる。
これは重要なコンピュータ科学と言語哲学の交わりにおける概念的な研究である。
論文 参考訳(メタデータ) (2023-07-18T14:32:21Z) - Circumventing interpretability: How to defeat mind-readers [0.0]
ミスアライメントされた人工知能は 思考の理解を難しくする 集中的なインセンティブを持つでしょう
有能なAIがスケーラブルな解釈可能性手法を回避できる多くの方法について議論し、これらの潜在的な将来のリスクについて考えるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-21T23:52:42Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - LioNets: A Neural-Specific Local Interpretation Technique Exploiting
Penultimate Layer Information [6.570220157893279]
解釈可能な機械学習(IML)は研究の緊急のトピックである。
本稿では,テキストデータと時系列データに適用される局所的,神経特異的な解釈プロセスに焦点を当てる。
論文 参考訳(メタデータ) (2021-04-13T09:39:33Z) - Argument Schemes and Dialogue for Explainable Planning [3.2741749231824904]
本論文では,AI計画の領域で説明を行うための議論スキームに基づくアプローチを提案する。
計画とその鍵となる要素を説明するための新たな議論スキームを提案する。
また、対話型方言説明のための議論スキームとクリティカルな質問を用いた新しい対話システムも提示する。
論文 参考訳(メタデータ) (2021-01-07T17:43:12Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z) - A general framework for scientifically inspired explanations in AI [76.48625630211943]
我々は、AIシステムの説明を実装可能な一般的なフレームワークの理論的基盤として、科学的説明の構造の概念をインスタンス化する。
このフレームワークは、AIシステムの"メンタルモデル"を構築するためのツールを提供することを目的としている。
論文 参考訳(メタデータ) (2020-03-02T10:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。