論文の概要: Q-learning with biased policy rules
- arxiv url: http://arxiv.org/abs/2304.12647v2
- Date: Thu, 19 Oct 2023 18:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 12:37:08.776301
- Title: Q-learning with biased policy rules
- Title(参考訳): 偏りのある政策ルールによるQラーニング
- Authors: Olivier Compte (Paris School of Economics)
- Abstract要約: 動的環境において、Q-ラーニング(Q-learning)は、利用可能な各アクションに関連する継続値の推定(Q-値)を提供するオートマトンである。
我々は、Q値に基づくが、そのポリシーが体系的に他人よりもいくつかの行動を好むようなオートマトン族を考える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In dynamic environments, Q-learning is an automaton that (i) provides
estimates (Q-values) of the continuation values associated with each available
action; and (ii) follows the naive policy of almost always choosing the action
with highest Q-value. We consider a family of automata that are based on
Q-values but whose policy may systematically favor some actions over others,
for example through a bias that favors cooperation. In the spirit of Compte and
Postlewaite [2018], we look for equilibrium biases within this family of
Q-based automata. We examine classic games under various monitoring
technologies and find that equilibrium biases may strongly foster collusion.
- Abstract(参考訳): 動的環境では、q-learningはオートマトンです
i) 利用可能な各行動に関連する継続値の見積(Q値)を提供し、
(ii) は、q値が最も高い行為をほぼ常に選択するナイーブな方針に従う。
私たちは、q値に基づいているが、そのポリシーは、例えば協力を好むバイアスを通じて、他のアクションよりも体系的に好まれるかもしれないオートマタのファミリーを考える。
compte と postlewaite [2018] の精神では、この q ベースのオートマトンファミリー内の均衡バイアスを求める。
様々なモニタリング技術の下でクラシックゲームを調べ,均衡バイアスが結束を強く促進する可能性を見出した。
関連論文リスト
- Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model [14.15965650090744]
我々は,不確実性推定に基づいて,OOD領域のQ値に悲観的な調整を施したQ-Distriion Guided Q-Learning (QDQ)を提案する。
QDQは一貫してD4RLベンチマークで強いパフォーマンスを示し、多くのタスクで大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-27T02:39:25Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - IQ-Flow: Mechanism Design for Inducing Cooperative Behavior to
Self-Interested Agents in Sequential Social Dilemmas [0.0]
Incentive Q-Flow (IQ-Flow) アルゴリズムを提案する。
自己関心のあるエージェントのインセンティブを学習する既存の方法とは異なり、IQ-Flowはエージェントのポリシーに関する仮定を一切行わない。
Escape Room や 2-Player のクリーンアップ環境において,IQ-Flow が最先端のインセンティブ設計アルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T14:44:29Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。
学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Balanced Q-learning: Combining the Influence of Optimistic and
Pessimistic Targets [74.04426767769785]
シナリオによっては、特定の種類の偏見が好ましいかもしれないことを示す。
そこで我々は,目標を悲観的かつ楽観的な用語の凸組合せに修正した新しい強化学習アルゴリズムであるBa balanced Q-learningを設計する。
論文 参考訳(メタデータ) (2021-11-03T07:30:19Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。