Fugu-MT 論文翻訳(概要): Minimum Levels of Interpretability for Artificial Moral Agents

論文の概要: Minimum Levels of Interpretability for Artificial Moral Agents

arxiv url: http://arxiv.org/abs/2307.00660v1
Date: Sun, 2 Jul 2023 20:27:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-05 14:58:09.349207
Title: Minimum Levels of Interpretability for Artificial Moral Agents
Title（参考訳）: 人工モラル剤の解釈可能性の最小レベル
Authors: Avish Vijayaraghavan, Cosmin Badea
Abstract要約: 道徳的意思決定に関わるモデル、または人工道徳的エージェント(英語版)(AMA)では、解釈可能性(英語版)は、効果的使用と誤り訂正のためのエージェントの内部推論機構を信頼し理解する手段を提供する。我々は,MLI(Minimum Level of Interpretability)の概念を導入し,さまざまなエージェントに対してMLIを推奨し,実際の環境における安全なデプロイを支援する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As artificial intelligence (AI) models continue to scale up, they are becoming more capable and integrated into various forms of decision-making systems. For models involved in moral decision-making, also known as artificial moral agents (AMA), interpretability provides a way to trust and understand the agent's internal reasoning mechanisms for effective use and error correction. In this paper, we provide an overview of this rapidly-evolving sub-field of AI interpretability, introduce the concept of the Minimum Level of Interpretability (MLI) and recommend an MLI for various types of agents, to aid their safe deployment in real-world settings.
Abstract（参考訳）: 人工知能(AI)モデルが拡大を続けるにつれ、より能力が高くなり、さまざまな意思決定システムに統合されている。道徳的意思決定に関わるモデル、別名「人為的モラルエージェント(ama)」では、解釈可能性(英語版)はエージェントの内部推論機構を信頼し理解し、効果的な使用と誤り訂正を行う手段を提供する。本稿では,この急速に進化するAI解釈可能性のサブフィールドの概要を述べるとともに,MLI(Minimum Level of Interpretability)の概念を導入し,さまざまなエージェントに対してMLIを推奨し,実際の環境における安全なデプロイメントを支援する。

関連論文リスト

A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence [87.08051686357206]
大きな言語モデル(LLM)は強力な能力を示しているが、基本的に静的である。 LLMはますますオープンでインタラクティブな環境にデプロイされているため、この静的な性質は重要なボトルネックとなっている。この調査は、自己進化エージェントの体系的で包括的なレビューを初めて提供する。
論文参考訳（メタデータ） (2025-07-28T17:59:05Z)
AI Agents and Agentic AI-Navigating a Plethora of Concepts for Future Manufacturing [8.195356684218691]
AIエージェントは、動的環境の中で知覚、理性、行動するように設計された自律システムである。 LLM、MLLM、エージェントAIは、情報処理、環境認識、自律的な意思決定におけるAIの能力の拡大に貢献している。この研究は、AIとAIエージェント技術の進化を体系的にレビューする。
論文参考訳（メタデータ） (2025-07-02T05:31:17Z)
Evolution of AI in Education: Agentic Workflows [2.1681971652284857]
人工知能(AI)は教育の様々な側面を変えてきた。大規模言語モデル(LLM)は、自動学習、アセスメント、コンテンツ生成の進歩を推進している。これらの制限に対処し、より持続可能な技術プラクティスを促進するために、AIエージェントは教育革新のための有望な新しい道として登場した。
論文参考訳（メタデータ） (2025-04-25T13:44:57Z)
Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文参考訳（メタデータ） (2025-04-11T15:41:21Z)
AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文参考訳（メタデータ） (2025-04-06T20:35:44Z)
Explainable artificial intelligence (XAI): from inherent explainability to large language models [0.0]
説明可能なAI(XAI)技術は、機械学習モデルの説明可能性や解釈可能性を促進する。本稿では、本質的に解釈可能なモデルから現代的なアプローチまで、説明可能なAI手法の進歩について詳述する。我々は、視覚言語モデル(VLM)フレームワークを利用して、他の機械学習モデルの説明可能性を自動化または改善する説明可能なAI技術についてレビューする。
論文参考訳（メタデータ） (2025-01-17T06:16:57Z)
Causal Responsibility Attribution for Human-AI Collaboration [62.474732677086855]
本稿では,人間のAIシステムにおける責任を体系的に評価するために,構造因果モデル(SCM)を用いた因果的枠組みを提案する。 2つのケーススタディは、多様な人間とAIのコラボレーションシナリオにおけるフレームワークの適応性を示している。
論文参考訳（メタデータ） (2024-11-05T17:17:45Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
Interpretable Rule-Based System for Radar-Based Gesture Sensing: Enhancing Transparency and Personalization in AI [2.99664686845172]
我々は,レーダに基づくジェスチャー検出に適した,透過的かつ解釈可能な多クラスルールベースアルゴリズムであるMIRAを紹介する。ユーザ中心のAIエクスペリエンスを提供し、個々のユーザの振る舞いを調整するパーソナライズされたルールセットを通じて、システムの適応性を示す。我々の研究は、MIRAが高い解釈可能性とパフォーマンスの両方を提供する能力を強調し、安全クリティカルなアプリケーションで解釈可能なAIを広く採用する可能性を強調している。
論文参考訳（メタデータ） (2024-09-30T16:40:27Z)
Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization [0.6629765271909505]
本稿では,言語モデルにおける弱強一般化によるモデルアライメントの新たなアプローチを提案する。このファシリテーションに基づくアプローチは、モデルの性能を高めるだけでなく、モデルアライメントの性質に関する洞察も提供することを示唆している。
論文参考訳（メタデータ） (2024-09-11T15:16:25Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文参考訳（メタデータ） (2024-02-28T16:09:56Z)
Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文参考訳（メタデータ） (2023-12-23T12:30:06Z)
Hybrid Approaches for Moral Value Alignment in AI Agents: a Manifesto [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。連続体としてモデル化された機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。我々は、適応可能で堅牢だが制御可能で解釈可能なエージェントシステムを構築するために、よりハイブリッドなソリューションが必要であると論じている。
論文参考訳（メタデータ） (2023-12-04T11:46:34Z)
Evaluating Explainability in Machine Learning Predictions through Explainer-Agnostic Metrics [0.0]
我々は,モデル予測が説明できる範囲を定量化するために,6つの異なるモデルに依存しないメトリクスを開発した。これらのメトリクスは、局所的な重要性、グローバルな重要性、代理予測など、モデル説明可能性のさまざまな側面を測定する。分類と回帰タスクにおけるこれらのメトリクスの実用性を実証し、これらのメトリクスを公開のために既存のPythonパッケージに統合する。
論文参考訳（メタデータ） (2023-02-23T15:28:36Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)
An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文参考訳（メタデータ） (2021-05-07T12:01:31Z)
Modelling Agent Policies with Interpretable Imitation Learning [12.858982225307809]
MDP環境における逆エンジニアリングブラックボックスエージェントポリシーにおける模倣学習のアプローチについて概説する。我々はマルコフ状態から構築された多数の候補特徴空間からエージェントの潜在状態表現を明示的にモデル化し学習する。
論文参考訳（メタデータ） (2020-06-19T18:19:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。