論文の概要: Decoding fairness: a reinforcement learning perspective
- arxiv url: http://arxiv.org/abs/2412.16249v1
- Date: Fri, 20 Dec 2024 01:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:55:29.775088
- Title: Decoding fairness: a reinforcement learning perspective
- Title(参考訳): デコードフェアネス:強化学習の視点から
- Authors: Guozhong Zheng, Jiqiang Zhang, Xin Ou, Shengfeng Deng, Li Chen,
- Abstract要約: 我々は,各プレイヤーに2つのQテーブルを割り当て,提案者と応答者の役割決定を導出する最後通しゲーム(UG)にQラーニングを適用する。
2人のプレイヤーのシナリオでは、経験と将来の報酬の両方が評価されるときに、公平さが顕著に現れる。
我々のメカニズム分析により,システムは2段階の段階を経て,最終的に公正あるいは合理的な戦略へと安定化することが明らかとなった。
- 参考スコア(独自算出の注目度): 6.0413802011767705
- License:
- Abstract: Behavioral experiments on the ultimatum game (UG) reveal that we humans prefer fair acts, which contradicts the prediction made in orthodox Economics. Existing explanations, however, are mostly attributed to exogenous factors within the imitation learning framework. Here, we adopt the reinforcement learning paradigm, where individuals make their moves aiming to maximize their accumulated rewards. Specifically, we apply Q-learning to UG, where each player is assigned two Q-tables to guide decisions for the roles of proposer and responder. In a two-player scenario, fairness emerges prominently when both experiences and future rewards are appreciated. In particular, the probability of successful deals increases with higher offers, which aligns with observations in behavioral experiments. Our mechanism analysis reveals that the system undergoes two phases, eventually stabilizing into fair or rational strategies. These results are robust when the rotating role assignment is replaced by a random or fixed manner, or the scenario is extended to a latticed population. Our findings thus conclude that the endogenous factor is sufficient to explain the emergence of fairness, exogenous factors are not needed.
- Abstract(参考訳): 終末ゲーム(UG)における行動実験により、人類は公正な行為を好むことが明らかとなり、これは正統派経済学における予測と矛盾する。
しかし、既存の説明は、主に模倣学習フレームワーク内の外因性要因に起因している。
ここでは、個人が蓄積した報酬を最大化するために行動する強化学習パラダイムを採用する。
具体的には、各プレイヤーに2つのQテーブルを割り当て、プロポーサとレスポンサの役割決定をガイドする。
2人のプレイヤーのシナリオでは、経験と将来の報酬の両方が評価されるときに、公平さが顕著に現れる。
特に、成功した取引の確率は、行動実験における観察と一致したより高いオファーによって増加する。
我々のメカニズム分析により,システムは2段階の段階を経て,最終的に公正あるいは合理的な戦略へと安定化することが明らかとなった。
これらの結果は、回転するロールの割り当てがランダムまたは固定な方法で置き換えられる場合や、シナリオが格子化された集団に拡張される場合、堅牢である。
その結果,内因性因子はフェアネスの出現を説明するのに十分であり,外因性因子は不要であることが判明した。
関連論文リスト
- Learning under Imitative Strategic Behavior with Unforeseeable Outcomes [14.80947863438795]
個人と意思決定者間の相互作用をモデル化するStackelbergゲームを提案する。
両者の目的的差異を3つの解釈可能な項に分解できることを示す。
論文 参考訳(メタデータ) (2024-05-03T00:53:58Z) - What Hides behind Unfairness? Exploring Dynamics Fairness in Reinforcement Learning [52.51430732904994]
強化学習問題では、エージェントはリターンを最大化しながら長期的な公正性を考慮する必要がある。
近年の研究では様々なフェアネスの概念が提案されているが、RL問題における不公平性がどのように生じるかは定かではない。
我々は、環境力学から生じる不平等を明示的に捉える、ダイナミックスフェアネスという新しい概念を導入する。
論文 参考訳(メタデータ) (2024-04-16T22:47:59Z) - Decoding trust: A reinforcement learning perspective [11.04265850036115]
信頼ゲームにおける行動実験は、信頼と信頼は人間の間で普遍的であることを示した。
個人が蓄積した経験を通じて長期的なリターンを評価することで戦略を更新する強化学習のパラダイムに目を向ける。
両者のシナリオでは、個人が過去の経験と未来への回帰の両方を理解すれば、高いレベルの信頼と信頼感が生まれます。
論文 参考訳(メタデータ) (2023-09-26T01:06:29Z) - Fairness Explainability using Optimal Transport with Applications in
Image Classification [0.46040036610482665]
機械学習アプリケーションにおける差別の原因を明らかにするための包括的アプローチを提案する。
We leverage Wasserstein barycenters to achieve fair predictions and introduce an extension to pinpoint bias-associated region。
これにより、各特徴がバイアスに影響を及ぼすかどうかを測定するために強制的公正性を使用する凝集系を導出することができる。
論文 参考訳(メタデータ) (2023-08-22T00:10:23Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Multi-Issue Bargaining With Deep Reinforcement Learning [0.0]
本稿では,バーゲティングゲームにおける深層強化学習の活用について検討する。
入札と受け入れ戦略のために2つのアクター・クリティカル・ネットワークが訓練された。
ニューラルエージェントは時間ベースのエージェントを活用することを学び、決定優先値の明確な遷移を達成する。
彼らはまた、譲歩、割引要因、行動に基づく戦略の異なる組み合わせに対して適応的な行動を示す。
論文 参考訳(メタデータ) (2020-02-18T18:33:46Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z) - Weakly-Supervised Disentanglement Without Compromises [53.55580957483103]
インテリジェントエージェントは、環境の変化を観察することで、有用な表現を学べるべきである。
変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。
我々は,どの因子が変化したかのみを知るだけで,非絡み合った表現を学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。