論文の概要: Stateful Strategic Regression
- arxiv url: http://arxiv.org/abs/2106.03827v1
- Date: Mon, 7 Jun 2021 17:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:27:33.126116
- Title: Stateful Strategic Regression
- Title(参考訳): Stateful Strategic Regression
- Authors: Keegan Harris, Hoda Heidari, Zhiwei Steven Wu
- Abstract要約: 結果のゲームにおけるスタックルバーグ均衡を記述し、計算のための新しいアルゴリズムを提供する。
分析の結果,ゲームの結果を形作る上でのマルチインタラクションの役割について,いくつかの興味深い知見が得られた。
最も重要なことは、処理時に複数ラウンドの相互作用を行うことで、主成分は、目的の方向に努力を蓄積するために、エージェントにインセンティブを与えるのにより効果的であることを示すことである。
- 参考スコア(独自算出の注目度): 20.7177095411398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated decision-making tools increasingly assess individuals to determine
if they qualify for high-stakes opportunities. A recent line of research
investigates how strategic agents may respond to such scoring tools to receive
favorable assessments. While prior work has focused on the short-term strategic
interactions between a decision-making institution (modeled as a principal) and
individual decision-subjects (modeled as agents), we investigate interactions
spanning multiple time-steps. In particular, we consider settings in which the
agent's effort investment today can accumulate over time in the form of an
internal state - impacting both his future rewards and that of the principal.
We characterize the Stackelberg equilibrium of the resulting game and provide
novel algorithms for computing it. Our analysis reveals several intriguing
insights about the role of multiple interactions in shaping the game's outcome:
First, we establish that in our stateful setting, the class of all linear
assessment policies remains as powerful as the larger class of all monotonic
assessment policies. While recovering the principal's optimal policy requires
solving a non-convex optimization problem, we provide polynomial-time
algorithms for recovering both the principal and agent's optimal policies under
common assumptions about the process by which effort investments convert to
observable features. Most importantly, we show that with multiple rounds of
interaction at her disposal, the principal is more effective at incentivizing
the agent to accumulate effort in her desired direction. Our work addresses
several critical gaps in the growing literature on the societal impacts of
automated decision-making - by focusing on longer time horizons and accounting
for the compounding nature of decisions individuals receive over time.
- Abstract(参考訳): 自動意思決定ツールは、高リスクの機会に適するかどうかを判断する個人をますます評価します。
近年の研究では、戦略的エージェントが評価を受けるための評価ツールにどのように反応するかが研究されている。
従来,意思決定機関(プリンシパルとしてモデル化)と個別意思決定対象(エージェントとしてモデル化)の短期的戦略的相互作用に注目してきたが,複数の時間ステップにまたがる相互作用について検討した。
特に、現在エージェントの努力投資が内部状態の形で時間の経過とともに蓄積されるような設定が、彼の将来の報酬とプリンシパルの報酬の両方に影響を及ぼすと考えている。
結果のゲームのスタックルバーグ平衡を特徴付け、計算のための新しいアルゴリズムを提供する。
第一に、私たちのステートフルな設定では、すべての線形評価ポリシーのクラスは、すべての単調評価ポリシーのより大きなクラスと同じくらい強力であることを確立します。
非凸最適化問題を解く必要のあるプリンシパルの最適ポリシーを回復する一方で、作業投資が観測可能な特徴に転換するプロセスに関する共通前提の下で、プリンシパルとエージェントの最適ポリシーを回復するための多項式時アルゴリズムを提供する。
最も重要なことは、複数のインタラクションを自由に行うことで、プリンシパルがエージェントに望ましい方向に努力を蓄積させるインセンティブをより効果的に行うことを示します。
我々の研究は、個人が時間とともに受ける決定の複雑な性質を考慮し、より長い時間的地平に焦点をあてることで、自動意思決定の社会的影響に関する文献の増大におけるいくつかの重要なギャップに対処します。
関連論文リスト
- Non-linear Welfare-Aware Strategic Learning [10.448052192725168]
本稿では,戦略的個人行動の存在下でのアルゴリズム的意思決定について考察する。
まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化する。
制限条件下でのみ3つの福祉が同時に最適な状態が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T01:50:03Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - ROMA-iQSS: An Objective Alignment Approach via State-Based Value Learning and ROund-Robin Multi-Agent Scheduling [44.276285521929424]
本稿では,エージェントが独立して最適な状態を発見できる分散状態ベース価値学習アルゴリズムを提案する。
我々の理論分析は、我々のアプローチが分散化されたエージェントを最適な集団政策へと導くことを示している。
さらに実験により,本手法が既存の分散状態ベースおよび行動ベース価値学習戦略より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-05T09:39:47Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - On solving decision and risk management problems subject to uncertainty [91.3755431537592]
不確実性は意思決定とリスク管理において広範囲にわたる課題である。
本稿では,このような戦略を体系的に理解し,その適用範囲を判断し,それらをうまく活用するための枠組みを開発する。
論文 参考訳(メタデータ) (2023-01-18T19:16:23Z) - Towards a more efficient computation of individual attribute and policy
contribution for post-hoc explanation of cooperative multi-agent systems
using Myerson values [0.0]
チームにおけるエージェントのグローバルな重要性の定量的評価は、ストラテジスト、意思決定者、スポーツコーチにとって、金と同じくらいの価値がある。
マルチエージェントシステムにおけるエージェントのポリシーと特徴の階層的知識グラフを決定する手法を提案する。
提案手法を,Deep Reinforcement Learningを通じて得られたハードコードされたポリシーとポリシーの両方をデプロイする実例実証環境で検証する。
論文 参考訳(メタデータ) (2022-12-06T15:15:00Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。
我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文 参考訳(メタデータ) (2022-03-07T17:32:35Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。