論文の概要: Q-based Equilibria
- arxiv url: http://arxiv.org/abs/2304.12647v1
- Date: Tue, 25 Apr 2023 08:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 21:19:11.269971
- Title: Q-based Equilibria
- Title(参考訳): q ベース平衡
- Authors: Olivier Compte (Paris School of Economics)
- Abstract要約: ナイーブポリシーは、常に高いQ値を持つ選択肢を選択することで成り立っている。
我々は、Qベースの政策ルールのファミリーを、体系的に他の選択肢よりもいくつかの選択肢を好むかもしれないと考えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In dynamic environments, Q-learning is an adaptative rule that provides an
estimate (a Q-value) of the continuation value associated with each
alternative. A naive policy consists in always choosing the alternative with
highest Q-value. We consider a family of Q-based policy rules that may
systematically favor some alternatives over others, for example rules that
incorporate a leniency bias that favors cooperation. In the spirit of Compte
and Postlewaite [2018], we look for equilibrium biases (or Qb-equilibria)
within this family of Q-based rules. We examine classic games under various
monitoring technologies.
- Abstract(参考訳): 動的環境において、q-learningは、各選択肢に関連する継続値の見積もり(q値)を提供する適応規則である。
ナイーブポリシーは、常に高いQ値を持つ選択肢を選択することである。
例えば、協力を優先する寛大さのバイアスを組み込んだルールなど、他のルールよりも体系的にいくつかの選択肢を好むようなqに基づく政策ルールのファミリーを考える。
Compte と Postlewaite [2018] の精神では、この Q ベースの規則の族の中で平衡バイアス(あるいは Qb-平衡)を求める。
各種モニタリング技術による古典ゲームについて検討する。
関連論文リスト
- Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model [14.15965650090744]
我々は,不確実性推定に基づいて,OOD領域のQ値に悲観的な調整を施したQ-Distriion Guided Q-Learning (QDQ)を提案する。
QDQは一貫してD4RLベンチマークで強いパフォーマンスを示し、多くのタスクで大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-27T02:39:25Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - IQ-Flow: Mechanism Design for Inducing Cooperative Behavior to
Self-Interested Agents in Sequential Social Dilemmas [0.0]
Incentive Q-Flow (IQ-Flow) アルゴリズムを提案する。
自己関心のあるエージェントのインセンティブを学習する既存の方法とは異なり、IQ-Flowはエージェントのポリシーに関する仮定を一切行わない。
Escape Room や 2-Player のクリーンアップ環境において,IQ-Flow が最先端のインセンティブ設計アルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T14:44:29Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。
学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Balanced Q-learning: Combining the Influence of Optimistic and
Pessimistic Targets [74.04426767769785]
シナリオによっては、特定の種類の偏見が好ましいかもしれないことを示す。
そこで我々は,目標を悲観的かつ楽観的な用語の凸組合せに修正した新しい強化学習アルゴリズムであるBa balanced Q-learningを設計する。
論文 参考訳(メタデータ) (2021-11-03T07:30:19Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。