論文の概要: Algorithmic Decision-Making under Agents with Persistent Improvement
- arxiv url: http://arxiv.org/abs/2405.01807v1
- Date: Fri, 3 May 2024 01:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 14:05:10.176936
- Title: Algorithmic Decision-Making under Agents with Persistent Improvement
- Title(参考訳): 持続的改善を伴うエージェントによるアルゴリズムによる意思決定
- Authors: Tian Xie, Xuwei Tan, Xueru Zhang,
- Abstract要約: 人間の戦略的行動下でのアルゴリズムによる意思決定について検討する。
まず、永続的な改善を特徴付ける動的モデルを開発する。
次に、意思決定者がエージェントの集団の中で最大の改善をインセンティブにするための最適なポリシーを設計する方法について研究する。
- 参考スコア(独自算出の注目度): 9.296248945826084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies algorithmic decision-making under human's strategic behavior, where a decision maker uses an algorithm to make decisions about human agents, and the latter with information about the algorithm may exert effort strategically and improve to receive favorable decisions. Unlike prior works that assume agents benefit from their efforts immediately, we consider realistic scenarios where the impacts of these efforts are persistent and agents benefit from efforts by making improvements gradually. We first develop a dynamic model to characterize persistent improvements and based on this construct a Stackelberg game to model the interplay between agents and the decision-maker. We analytically characterize the equilibrium strategies and identify conditions under which agents have incentives to improve. With the dynamics, we then study how the decision-maker can design an optimal policy to incentivize the largest improvements inside the agent population. We also extend the model to settings where 1) agents may be dishonest and game the algorithm into making favorable but erroneous decisions; 2) honest efforts are forgettable and not sufficient to guarantee persistent improvements. With the extended models, we further examine conditions under which agents prefer honest efforts over dishonest behavior and the impacts of forgettable efforts.
- Abstract(参考訳): 本稿では,人間の戦略的行動下でのアルゴリズムによる意思決定について検討する。そこでは,意思決定者がアルゴリズムを用いて人的エージェントについての意思決定を行う。
エージェントが彼らの努力からすぐに恩恵を受けると仮定する以前の作業とは異なり、これらの取り組みの影響が持続的であり、エージェントは徐々に改善することで努力の恩恵を受ける現実的なシナリオを考察する。
まず、永続的な改善を特徴付ける動的モデルを開発し、この構成に基づいてエージェントと意思決定者間の相互作用をモデル化する。
我々は、均衡戦略を解析的に特徴付け、エージェントが改善のインセンティブを持つ条件を特定する。
このダイナミクスを用いて、エージェントの集団内で最大の改善をインセンティブ付けるための最適なポリシーを、意思決定者がいかに設計できるかを研究する。
また、設定にモデルを拡張します。
1) エージェントは,不正直であり,かつ,アルゴリズムを好意的かつ誤った判断に駆り立てることができる。
2) 誠実な努力は忘れられ、継続的な改善を保証するには不十分です。
拡張モデルにより、エージェントは不正直な行動よりも正直な努力を優先し、忘れやすい努力の効果を優先する条件をさらに検討する。
関連論文リスト
- Satisficing Exploration for Deep Reinforcement Learning [26.73584163318647]
現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。
最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。
モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
論文 参考訳(メタデータ) (2024-07-16T21:28:03Z) - Bias Mitigation via Compensation: A Reinforcement Learning Perspective [1.5442389863546546]
グループダイナミクスは、あるエージェント(例えば、AIシステム)が別のエージェント(例えば、人間)のバイアスとエラーを補う必要があるかもしれない。
ゲーム理論と強化学習原理を合成するアルゴリズム補償のための理論的枠組みを提供する。
この研究は、AIエージェントが他のエージェントのバイアスや行動に適応すべき条件の倫理的分析の基礎となる。
論文 参考訳(メタデータ) (2024-04-30T04:41:47Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Causal Strategic Learning with Competitive Selection [10.237954203296187]
複数の意思決定者の下で因果戦略学習におけるエージェント選択の問題について検討する。
最適な選択規則は、最適なエージェントを選択することと、エージェントの改善を最大化するためのインセンティブを提供することの間のトレードオフであることを示す。
我々は、真の因果パラメータを回復するために、すべての意思決定者がまとめて採用しなければならない協調プロトコルを提供する。
論文 参考訳(メタデータ) (2023-08-30T18:43:11Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Stateful Strategic Regression [20.7177095411398]
結果のゲームにおけるスタックルバーグ均衡を記述し、計算のための新しいアルゴリズムを提供する。
分析の結果,ゲームの結果を形作る上でのマルチインタラクションの役割について,いくつかの興味深い知見が得られた。
最も重要なことは、処理時に複数ラウンドの相互作用を行うことで、主成分は、目的の方向に努力を蓄積するために、エージェントにインセンティブを与えるのにより効果的であることを示すことである。
論文 参考訳(メタデータ) (2021-06-07T17:46:29Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Causal Strategic Linear Regression [5.672132510411465]
信用スコアや学術試験のような多くの予測的な意思決定シナリオでは、意思決定者は、決定ルールを「ゲーム」するためにエージェントの正当性を説明するモデルを構築しなければならない。
私たちは、変更可能な属性の関数として、モデリングエージェントの結果の同時処理に参加します。
3つの異なる意思決定目標を最適化する意思決定ルールを学習するための効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-02-24T03:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。