論文の概要: Minimum Levels of Interpretability for Artificial Moral Agents
- arxiv url: http://arxiv.org/abs/2307.00660v1
- Date: Sun, 2 Jul 2023 20:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 14:58:09.349207
- Title: Minimum Levels of Interpretability for Artificial Moral Agents
- Title(参考訳): 人工モラル剤の解釈可能性の最小レベル
- Authors: Avish Vijayaraghavan, Cosmin Badea
- Abstract要約: 道徳的意思決定に関わるモデル、または人工道徳的エージェント(英語版)(AMA)では、解釈可能性(英語版)は、効果的使用と誤り訂正のためのエージェントの内部推論機構を信頼し理解する手段を提供する。
我々は,MLI(Minimum Level of Interpretability)の概念を導入し,さまざまなエージェントに対してMLIを推奨し,実際の環境における安全なデプロイを支援する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As artificial intelligence (AI) models continue to scale up, they are
becoming more capable and integrated into various forms of decision-making
systems. For models involved in moral decision-making, also known as artificial
moral agents (AMA), interpretability provides a way to trust and understand the
agent's internal reasoning mechanisms for effective use and error correction.
In this paper, we provide an overview of this rapidly-evolving sub-field of AI
interpretability, introduce the concept of the Minimum Level of
Interpretability (MLI) and recommend an MLI for various types of agents, to aid
their safe deployment in real-world settings.
- Abstract(参考訳): 人工知能(AI)モデルが拡大を続けるにつれ、より能力が高くなり、さまざまな意思決定システムに統合されている。
道徳的意思決定に関わるモデル、別名「人為的モラルエージェント(ama)」では、解釈可能性(英語版)はエージェントの内部推論機構を信頼し理解し、効果的な使用と誤り訂正を行う手段を提供する。
本稿では,この急速に進化するAI解釈可能性のサブフィールドの概要を述べるとともに,MLI(Minimum Level of Interpretability)の概念を導入し,さまざまなエージェントに対してMLIを推奨し,実際の環境における安全なデプロイメントを支援する。
関連論文リスト
- Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。
このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文 参考訳(メタデータ) (2023-12-23T12:30:06Z) - Towards a Responsible AI Metrics Catalogue: A Collection of Metrics for
AI Accountability [28.67753149592534]
本研究は,包括的メトリクスカタログへの取り組みを導入することで,説明責任のギャップを埋めるものである。
我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。
論文 参考訳(メタデータ) (2023-11-22T04:43:16Z) - Stable and Interpretable Deep Learning for Tabular Data: Introducing
InterpreTabNet with the Novel InterpreStability Metric [4.362293468843233]
分類精度と解釈可能性の両方を向上するモデルであるInterpreTabNetを導入する。
また,モデルの解釈可能性の安定性を定量的に評価する新しい評価指標であるInterpreStabilityを提案する。
論文 参考訳(メタデータ) (2023-10-04T15:04:13Z) - Evaluating explainability for machine learning predictions using
model-agnostic metrics [0.0]
本稿では,その特徴からAIモデル予測が容易に説明できる程度を定量化する新しい指標を提案する。
我々のメトリクスは、説明可能性の異なる側面をスカラーに要約し、モデル予測のより包括的な理解を提供する。
論文 参考訳(メタデータ) (2023-02-23T15:28:36Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Modelling Agent Policies with Interpretable Imitation Learning [12.858982225307809]
MDP環境における逆エンジニアリングブラックボックスエージェントポリシーにおける模倣学習のアプローチについて概説する。
我々はマルコフ状態から構築された多数の候補特徴空間からエージェントの潜在状態表現を明示的にモデル化し学習する。
論文 参考訳(メタデータ) (2020-06-19T18:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。