論文の概要: Agent Incentives: A Causal Perspective
- arxiv url: http://arxiv.org/abs/2102.01685v1
- Date: Tue, 2 Feb 2021 18:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 01:50:28.351384
- Title: Agent Incentives: A Causal Perspective
- Title(参考訳): エージェントインセンティブ:因果的視点
- Authors: Tom Everitt, Ryan Carey, Eric Langlois, Pedro A Ortega, Shane Legg
- Abstract要約: 本稿では,因果影響図を用いたエージェントインセンティブの分析フレームワークを提案する。
本稿では,制御値に対する新しいグラフィカルな基準を提案し,その健全性と完全性を確立する。
これらの結果は,AIシステムの安全性と公平性を評価する上で有効であることを示す。
- 参考スコア(独自算出の注目度): 14.8838654900972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for analysing agent incentives using causal influence
diagrams. We establish that a well-known criterion for value of information is
complete. We propose a new graphical criterion for value of control,
establishing its soundness and completeness. We also introduce two new concepts
for incentive analysis: response incentives indicate which changes in the
environment affect an optimal decision, while instrumental control incentives
establish whether an agent can influence its utility via a variable X. For both
new concepts, we provide sound and complete graphical criteria. We show by
example how these results can help with evaluating the safety and fairness of
an AI system.
- Abstract(参考訳): 因果関係図を用いてエージェントインセンティブを分析するためのフレームワークを提案する。
我々は、情報の価値に関する有名な基準が完成していると断定する。
制御値に対する新たなグラフィカル基準を提案し、その健全性と完全性を確立します。
また、環境の変化が最適な決定に影響を与えるかを示す応答インセンティブと、エージェントが変数 X を介してその有用性に影響を与えることができるかどうかを決定する機器制御インセンティブの2つの新しい概念を紹介します。
両方の新しい概念について、私たちはサウンドと完全なグラフィカルな基準を提供します。
これらの結果がAIシステムの安全性と公平性を評価するのにどのように役立つかを例に示します。
関連論文リスト
- A Dual-Perspective Approach to Evaluating Feature Attribution Methods [43.16453263420591]
本稿では,直観的特性を明らかにする忠実度パラダイムの中で,音性と完全性という2つの新しい視点を提案する。
健全性は、どの特徴が真に予測的特徴であるかを評価する一方、完全性は、結果の帰属が予測的特徴をどの程度うまく明らかにするかを調べる。
これらのメトリクスを主流属性法に適用し、特徴属性法を解析・比較するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2023-08-17T12:41:04Z) - Adaptive Contextual Perception: How to Generalize to New Backgrounds and
Ambiguous Objects [84.48039784446166]
本研究では,視覚モデルが分布外一般化の文脈をどのように適応的に利用するかを検討する。
1つの設定で優れているモデルは、もう1つの設定で苦労する傾向があります。
生物学的視覚の一般化能力を再現するためには、コンピュータビジョンモデルは背景表現に対して分解対象を持つ必要がある。
論文 参考訳(メタデータ) (2023-06-09T15:29:54Z) - Causal Fairness for Outcome Control [68.12191782657437]
本稿では,自動システムにおいて,公平かつ公平な結果変数を最適化することを目的とした,結果制御と呼ばれる特定の意思決定タスクについて検討する。
本稿では、まず因果レンズを通して利益の概念を分析し、特定の個人が肯定的な決定によってどれだけの利益を得られるかを明らかにする。
次に、保護された属性の影響を受けている可能性があることに留意し、これを分析するために使用できる因果的ツールを提案する。
論文 参考訳(メタデータ) (2023-06-08T09:31:18Z) - Understanding Expertise through Demonstrations: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [56.848265937921354]
オフライン逆強化学習(英: offline inverse reinforcement learning、IRL)は、専門家エージェントからの有限個のデモンストレーションセットにおいて観測された動作を過小評価する報酬と環境力学の構造を回復することを目的としている。
本稿では,二段階最適化問題の定式化を解くための新しいアルゴリズムフレームワークを提案し,関連する報酬推定器の性能の統計的および計算的保証を提供する。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Attributing Fair Decisions with Attention Interventions [28.968122909973975]
我々は、属性フレームワークとして活用できる注意ベースのモデルを設計する。
注意介入と注意重み操作によって、モデルの性能と公平性の両方に責任を負う特徴を特定することができる。
次に、後処理のバイアス軽減戦略を設計し、ベースラインのスイートと比較します。
論文 参考訳(メタデータ) (2021-09-08T22:28:44Z) - From Canonical Correlation Analysis to Self-supervised Graph Neural
Networks [99.44881722969046]
本稿では,グラフデータを用いた自己教師付き表現学習のための概念的単純かつ効果的なモデルを提案する。
古典的カノニカル相関解析にインスパイアされた,革新的な特徴レベルの目的を最適化する。
提案手法は、7つの公開グラフデータセット上で競合的に動作する。
論文 参考訳(メタデータ) (2021-06-23T15:55:47Z) - Modulation of viability signals for self-regulatory control [1.370633147306388]
適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。
強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
論文 参考訳(メタデータ) (2020-07-18T01:11:51Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z) - The Incentives that Shape Behaviour [17.12590828259331]
インセンティブを定式化し、任意の決定因果影響図において、インセンティブを検出するためのユニークな基準を示す。
これらのインセンティブが、公正性とAI安全アプリケーションの両方において、エージェントインセンティブを予測する方法を示す。
論文 参考訳(メタデータ) (2020-01-20T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。