Fugu-MT 論文翻訳(概要): Agent Incentives: A Causal Perspective

論文の概要: Agent Incentives: A Causal Perspective

arxiv url: http://arxiv.org/abs/2102.01685v1
Date: Tue, 2 Feb 2021 18:52:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-04 01:50:28.351384
Title: Agent Incentives: A Causal Perspective
Title（参考訳）: エージェントインセンティブ:因果的視点
Authors: Tom Everitt, Ryan Carey, Eric Langlois, Pedro A Ortega, Shane Legg
Abstract要約: 本稿では,因果影響図を用いたエージェントインセンティブの分析フレームワークを提案する。本稿では,制御値に対する新しいグラフィカルな基準を提案し,その健全性と完全性を確立する。これらの結果は,AIシステムの安全性と公平性を評価する上で有効であることを示す。
参考スコア（独自算出の注目度）: 14.8838654900972
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a framework for analysing agent incentives using causal influence diagrams. We establish that a well-known criterion for value of information is complete. We propose a new graphical criterion for value of control, establishing its soundness and completeness. We also introduce two new concepts for incentive analysis: response incentives indicate which changes in the environment affect an optimal decision, while instrumental control incentives establish whether an agent can influence its utility via a variable X. For both new concepts, we provide sound and complete graphical criteria. We show by example how these results can help with evaluating the safety and fairness of an AI system.
Abstract（参考訳）: 因果関係図を用いてエージェントインセンティブを分析するためのフレームワークを提案する。我々は、情報の価値に関する有名な基準が完成していると断定する。制御値に対する新たなグラフィカル基準を提案し、その健全性と完全性を確立します。また、環境の変化が最適な決定に影響を与えるかを示す応答インセンティブと、エージェントが変数 X を介してその有用性に影響を与えることができるかどうかを決定する機器制御インセンティブの2つの新しい概念を紹介します。両方の新しい概念について、私たちはサウンドと完全なグラフィカルな基準を提供します。これらの結果がAIシステムの安全性と公平性を評価するのにどのように役立つかを例に示します。

関連論文リスト

Understanding Action Effects through Instrumental Empowerment in Multi-Agent Reinforcement Learning [39.74025439412935]
本研究は,政策分布の分析のみでエージェント行動に対する有意義な洞察を抽出できるかどうかを考察する。知的エージェントが収束器質的価値を追求する傾向にある現象にインスパイアされた我々は、ICV(Intended Cooperation Values)を導入する。 ICVは、その決定(不確実性)と選好の整合性を評価することで、チームメイトの方針に対するエージェントの作用を測定する。
論文参考訳（メタデータ） (2025-08-21T15:35:59Z)
Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文参考訳（メタデータ） (2025-07-07T06:26:04Z)
When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances [42.36530107262305]
説明の堅牢性は、システムと提供された説明の両方を信頼する上で、中心的な役割を果たす。本稿では,非対向摂動に対するニューラルネットワーク説明の頑健さを解析するための新しいアプローチを提案する。さらに,様々な説明を集約するアンサンブル手法を提案し,モデルの決定を理解し,頑健さを評価することによって,説明の融合がいかに有用かを示す。
論文参考訳（メタデータ） (2024-06-20T14:17:57Z)
Introducing User Feedback-based Counterfactual Explanations (UFCE) [49.1574468325115]
対実的説明(CE)は、XAIで理解可能な説明を生成するための有効な解決策として浮上している。 UFCEは、アクション可能な機能のサブセットで最小限の変更を決定するために、ユーザー制約を含めることができる。 UFCEは、textitproximity(英語版)、textitsparsity(英語版)、textitfeasibility(英語版)の2つのよく知られたCEメソッドより優れている。
論文参考訳（メタデータ） (2024-02-26T20:09:44Z)
A Dual-Perspective Approach to Evaluating Feature Attribution Methods [40.73602126894125]
本稿では,直観的特性を明らかにする忠実度パラダイムの中で,音性と完全性という2つの新しい視点を提案する。健全性は、どの特徴が真に予測的特徴であるかを評価する一方、完全性は、結果の帰属が予測的特徴をどの程度うまく明らかにするかを調べる。これらのメトリクスを主流属性法に適用し、特徴属性法を解析・比較するための新しいレンズを提供する。
論文参考訳（メタデータ） (2023-08-17T12:41:04Z)
Adaptive Contextual Perception: How to Generalize to New Backgrounds and Ambiguous Objects [75.15563723169234]
本研究では,視覚モデルが分布外一般化の文脈をどのように適応的に利用するかを検討する。 1つの設定で優れているモデルは、もう1つの設定で苦労する傾向があります。生物学的視覚の一般化能力を再現するためには、コンピュータビジョンモデルは背景表現に対して分解対象を持つ必要がある。
論文参考訳（メタデータ） (2023-06-09T15:29:54Z)
Causal Fairness for Outcome Control [68.12191782657437]
本稿では,自動システムにおいて,公平かつ公平な結果変数を最適化することを目的とした,結果制御と呼ばれる特定の意思決定タスクについて検討する。本稿では、まず因果レンズを通して利益の概念を分析し、特定の個人が肯定的な決定によってどれだけの利益を得られるかを明らかにする。次に、保護された属性の影響を受けている可能性があることに留意し、これを分析するために使用できる因果的ツールを提案する。
論文参考訳（メタデータ） (2023-06-08T09:31:18Z)
Illuminating Salient Contributions in Neuron Activation with Attribution Equilibrium [33.55397868171977]
本稿では,出力予測を微粒な属性に分解する新しい手法である属性平衡を導入する。我々は,従来の意思決定手法を分析し,証拠の保存に関して異なる視点を提示する。
論文参考訳（メタデータ） (2022-05-23T07:57:42Z)
Exploring the Trade-off between Plausibility, Change Intensity and Adversarial Power in Counterfactual Explanations using Multi-objective Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。本稿では, 対実例生成のための新しい枠組みを提案する。
論文参考訳（メタデータ） (2022-05-20T15:02:53Z)
Attributing Fair Decisions with Attention Interventions [28.968122909973975]
我々は、属性フレームワークとして活用できる注意ベースのモデルを設計する。注意介入と注意重み操作によって、モデルの性能と公平性の両方に責任を負う特徴を特定することができる。次に、後処理のバイアス軽減戦略を設計し、ベースラインのスイートと比較します。
論文参考訳（メタデータ） (2021-09-08T22:28:44Z)
From Canonical Correlation Analysis to Self-supervised Graph Neural Networks [99.44881722969046]
本稿では,グラフデータを用いた自己教師付き表現学習のための概念的単純かつ効果的なモデルを提案する。古典的カノニカル相関解析にインスパイアされた,革新的な特徴レベルの目的を最適化する。提案手法は、7つの公開グラフデータセット上で競合的に動作する。
論文参考訳（メタデータ） (2021-06-23T15:55:47Z)
Modulation of viability signals for self-regulatory control [1.370633147306388]
適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
論文参考訳（メタデータ） (2020-07-18T01:11:51Z)
Inverse Active Sensing: Modeling and Understanding Timely Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文参考訳（メタデータ） (2020-06-25T02:30:45Z)
The Incentives that Shape Behaviour [17.12590828259331]
インセンティブを定式化し、任意の決定因果影響図において、インセンティブを検出するためのユニークな基準を示す。これらのインセンティブが、公正性とAI安全アプリケーションの両方において、エージェントインセンティブを予測する方法を示す。
論文参考訳（メタデータ） (2020-01-20T14:32:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。