Fugu-MT 論文翻訳(概要): Q-based Equilibria

論文の概要: Q-based Equilibria

arxiv url: http://arxiv.org/abs/2304.12647v1
Date: Tue, 25 Apr 2023 08:25:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 21:19:11.269971
Title: Q-based Equilibria
Title（参考訳）: q ベース平衡
Authors: Olivier Compte (Paris School of Economics)
Abstract要約: ナイーブポリシーは、常に高いQ値を持つ選択肢を選択することで成り立っている。我々は、Qベースの政策ルールのファミリーを、体系的に他の選択肢よりもいくつかの選択肢を好むかもしれないと考えている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In dynamic environments, Q-learning is an adaptative rule that provides an estimate (a Q-value) of the continuation value associated with each alternative. A naive policy consists in always choosing the alternative with highest Q-value. We consider a family of Q-based policy rules that may systematically favor some alternatives over others, for example rules that incorporate a leniency bias that favors cooperation. In the spirit of Compte and Postlewaite [2018], we look for equilibrium biases (or Qb-equilibria) within this family of Q-based rules. We examine classic games under various monitoring technologies.
Abstract（参考訳）: 動的環境において、q-learningは、各選択肢に関連する継続値の見積もり(q値)を提供する適応規則である。ナイーブポリシーは、常に高いQ値を持つ選択肢を選択することである。例えば、協力を優先する寛大さのバイアスを組み込んだルールなど、他のルールよりも体系的にいくつかの選択肢を好むようなqに基づく政策ルールのファミリーを考える。 Compte と Postlewaite [2018] の精神では、この Q ベースの規則の族の中で平衡バイアス(あるいは Qb-平衡)を求める。各種モニタリング技術による古典ゲームについて検討する。

関連論文リスト

Mitigating Relative Over-Generalization in Multi-Agent Reinforcement Learning [11.988291170853806]
我々は,潜在的次の状態のサンプリングと評価を反復的に行うMaxMax Q-Learning (MMQ)を紹介した。このアプローチは理想的な状態遷移の近似を洗練させ、協調エージェントの最適結合ポリシーとより密接に一致させる。以上の結果から,MMQは既存のベースラインよりも優れており,コンバージェンスと試料効率が向上していることが明らかとなった。
論文参考訳（メタデータ） (2024-11-17T15:00:39Z)
Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model [14.15965650090744]
我々は,不確実性推定に基づいて,OOD領域のQ値に悲観的な調整を施したQ-Distriion Guided Q-Learning (QDQ)を提案する。 QDQは一貫してD4RLベンチマークで強いパフォーマンスを示し、多くのタスクで大幅な改善を実現している。
論文参考訳（メタデータ） (2024-10-27T02:39:25Z)
QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文参考訳（メタデータ） (2023-10-17T14:27:34Z)
SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文参考訳（メタデータ） (2023-09-21T16:51:30Z)
Actions Speak What You Want: Provably Sample-Efficient Reinforcement Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文参考訳（メタデータ） (2023-07-26T10:24:17Z)
IQ-Flow: Mechanism Design for Inducing Cooperative Behavior to Self-Interested Agents in Sequential Social Dilemmas [0.0]
Incentive Q-Flow (IQ-Flow) アルゴリズムを提案する。自己関心のあるエージェントのインセンティブを学習する既存の方法とは異なり、IQ-Flowはエージェントのポリシーに関する仮定を一切行わない。 Escape Room や 2-Player のクリーンアップ環境において,IQ-Flow が最先端のインセンティブ設計アルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-28T14:44:29Z)
Asymptotic Convergence and Performance of Multi-Agent Q-Learning Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文参考訳（メタデータ） (2023-01-23T18:39:11Z)
Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文参考訳（メタデータ） (2022-05-29T07:39:09Z)
DQMIX: A Distributional Perspective on Multi-Agent Reinforcement Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文参考訳（メタデータ） (2022-02-21T11:28:00Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)
Balanced Q-learning: Combining the Influence of Optimistic and Pessimistic Targets [74.04426767769785]
シナリオによっては、特定の種類の偏見が好ましいかもしれないことを示す。そこで我々は,目標を悲観的かつ楽観的な用語の凸組合せに修正した新しい強化学習アルゴリズムであるBa balanced Q-learningを設計する。
論文参考訳（メタデータ） (2021-11-03T07:30:19Z)
Parameter-Free Deterministic Reduction of the Estimation Bias in Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文参考訳（メタデータ） (2021-09-24T07:41:07Z)
Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。 2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文参考訳（メタデータ） (2021-04-18T06:17:54Z)
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2020-10-21T11:19:53Z)
ConQUR: Mitigating Delusional Bias in Deep Q-learning [45.21332566843924]
妄想バイアスは、近似Q-ラーニングにおける基本的なエラー源である。我々は,根底にある欲求政策クラスと「一致」したラベルを持つQ近似器を訓練することで,妄想バイアスを緩和する効率的な方法を開発した。
論文参考訳（メタデータ） (2020-02-27T19:22:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。