論文の概要: Minimum Levels of Interpretability for Artificial Moral Agents
- arxiv url: http://arxiv.org/abs/2307.00660v1
- Date: Sun, 2 Jul 2023 20:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 14:58:09.349207
- Title: Minimum Levels of Interpretability for Artificial Moral Agents
- Title(参考訳): 人工モラル剤の解釈可能性の最小レベル
- Authors: Avish Vijayaraghavan, Cosmin Badea
- Abstract要約: 道徳的意思決定に関わるモデル、または人工道徳的エージェント(英語版)(AMA)では、解釈可能性(英語版)は、効果的使用と誤り訂正のためのエージェントの内部推論機構を信頼し理解する手段を提供する。
我々は,MLI(Minimum Level of Interpretability)の概念を導入し,さまざまなエージェントに対してMLIを推奨し,実際の環境における安全なデプロイを支援する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence (AI) models continue to scale up, they are
becoming more capable and integrated into various forms of decision-making
systems. For models involved in moral decision-making, also known as artificial
moral agents (AMA), interpretability provides a way to trust and understand the
agent's internal reasoning mechanisms for effective use and error correction.
In this paper, we provide an overview of this rapidly-evolving sub-field of AI
interpretability, introduce the concept of the Minimum Level of
Interpretability (MLI) and recommend an MLI for various types of agents, to aid
their safe deployment in real-world settings.
- Abstract(参考訳): 人工知能(AI)モデルが拡大を続けるにつれ、より能力が高くなり、さまざまな意思決定システムに統合されている。
道徳的意思決定に関わるモデル、別名「人為的モラルエージェント(ama)」では、解釈可能性(英語版)はエージェントの内部推論機構を信頼し理解し、効果的な使用と誤り訂正を行う手段を提供する。
本稿では,この急速に進化するAI解釈可能性のサブフィールドの概要を述べるとともに,MLI(Minimum Level of Interpretability)の概念を導入し,さまざまなエージェントに対してMLIを推奨し,実際の環境における安全なデプロイメントを支援する。
関連論文リスト
- Causal Responsibility Attribution for Human-AI Collaboration [62.474732677086855]
本稿では,人間のAIシステムにおける責任を体系的に評価するために,構造因果モデル(SCM)を用いた因果的枠組みを提案する。
2つのケーススタディは、多様な人間とAIのコラボレーションシナリオにおけるフレームワークの適応性を示している。
論文 参考訳(メタデータ) (2024-11-05T17:17:45Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Interpretable Rule-Based System for Radar-Based Gesture Sensing: Enhancing Transparency and Personalization in AI [2.99664686845172]
我々は,レーダに基づくジェスチャー検出に適した,透過的かつ解釈可能な多クラスルールベースアルゴリズムであるMIRAを紹介する。
ユーザ中心のAIエクスペリエンスを提供し、個々のユーザの振る舞いを調整するパーソナライズされたルールセットを通じて、システムの適応性を示す。
我々の研究は、MIRAが高い解釈可能性とパフォーマンスの両方を提供する能力を強調し、安全クリティカルなアプリケーションで解釈可能なAIを広く採用する可能性を強調している。
論文 参考訳(メタデータ) (2024-09-30T16:40:27Z) - Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization [0.6629765271909505]
本稿では,言語モデルにおける弱強一般化によるモデルアライメントの新たなアプローチを提案する。
このファシリテーションに基づくアプローチは、モデルの性能を高めるだけでなく、モデルアライメントの性質に関する洞察も提供することを示唆している。
論文 参考訳(メタデータ) (2024-09-11T15:16:25Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。
このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文 参考訳(メタデータ) (2023-12-23T12:30:06Z) - Evaluating Explainability in Machine Learning Predictions through Explainer-Agnostic Metrics [0.0]
我々は,モデル予測が説明できる範囲を定量化するために,6つの異なるモデルに依存しないメトリクスを開発した。
これらのメトリクスは、局所的な重要性、グローバルな重要性、代理予測など、モデル説明可能性のさまざまな側面を測定する。
分類と回帰タスクにおけるこれらのメトリクスの実用性を実証し、これらのメトリクスを公開のために既存のPythonパッケージに統合する。
論文 参考訳(メタデータ) (2023-02-23T15:28:36Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Modelling Agent Policies with Interpretable Imitation Learning [12.858982225307809]
MDP環境における逆エンジニアリングブラックボックスエージェントポリシーにおける模倣学習のアプローチについて概説する。
我々はマルコフ状態から構築された多数の候補特徴空間からエージェントの潜在状態表現を明示的にモデル化し学習する。
論文 参考訳(メタデータ) (2020-06-19T18:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。