Fugu-MT 論文翻訳(概要): Q-learning with biased policy rules

論文の概要: Q-learning with biased policy rules

arxiv url: http://arxiv.org/abs/2304.12647v2
Date: Thu, 19 Oct 2023 18:16:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 12:37:08.776301
Title: Q-learning with biased policy rules
Title（参考訳）: 偏りのある政策ルールによるQラーニング
Authors: Olivier Compte (Paris School of Economics)
Abstract要約: 動的環境において、Q-ラーニング(Q-learning)は、利用可能な各アクションに関連する継続値の推定(Q-値)を提供するオートマトンである。我々は、Q値に基づくが、そのポリシーが体系的に他人よりもいくつかの行動を好むようなオートマトン族を考える。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In dynamic environments, Q-learning is an automaton that (i) provides estimates (Q-values) of the continuation values associated with each available action; and (ii) follows the naive policy of almost always choosing the action with highest Q-value. We consider a family of automata that are based on Q-values but whose policy may systematically favor some actions over others, for example through a bias that favors cooperation. In the spirit of Compte and Postlewaite [2018], we look for equilibrium biases within this family of Q-based automata. We examine classic games under various monitoring technologies and find that equilibrium biases may strongly foster collusion.
Abstract（参考訳）: 動的環境では、q-learningはオートマトンです i) 利用可能な各行動に関連する継続値の見積(Q値)を提供し、 (ii) は、q値が最も高い行為をほぼ常に選択するナイーブな方針に従う。私たちは、q値に基づいているが、そのポリシーは、例えば協力を好むバイアスを通じて、他のアクションよりも体系的に好まれるかもしれないオートマタのファミリーを考える。 compte と postlewaite [2018] の精神では、この q ベースのオートマトンファミリー内の均衡バイアスを求める。様々なモニタリング技術の下でクラシックゲームを調べ,均衡バイアスが結束を強く促進する可能性を見出した。

関連論文リスト

Mitigating Relative Over-Generalization in Multi-Agent Reinforcement Learning [11.988291170853806]
我々は,潜在的次の状態のサンプリングと評価を反復的に行うMaxMax Q-Learning (MMQ)を紹介した。このアプローチは理想的な状態遷移の近似を洗練させ、協調エージェントの最適結合ポリシーとより密接に一致させる。以上の結果から,MMQは既存のベースラインよりも優れており,コンバージェンスと試料効率が向上していることが明らかとなった。
論文参考訳（メタデータ） (2024-11-17T15:00:39Z)
Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model [14.15965650090744]
我々は,不確実性推定に基づいて,OOD領域のQ値に悲観的な調整を施したQ-Distriion Guided Q-Learning (QDQ)を提案する。 QDQは一貫してD4RLベンチマークで強いパフォーマンスを示し、多くのタスクで大幅な改善を実現している。
論文参考訳（メタデータ） (2024-10-27T02:39:25Z)
QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文参考訳（メタデータ） (2023-10-17T14:27:34Z)
SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文参考訳（メタデータ） (2023-09-21T16:51:30Z)
Actions Speak What You Want: Provably Sample-Efficient Reinforcement Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文参考訳（メタデータ） (2023-07-26T10:24:17Z)
IQ-Flow: Mechanism Design for Inducing Cooperative Behavior to Self-Interested Agents in Sequential Social Dilemmas [0.0]
Incentive Q-Flow (IQ-Flow) アルゴリズムを提案する。自己関心のあるエージェントのインセンティブを学習する既存の方法とは異なり、IQ-Flowはエージェントのポリシーに関する仮定を一切行わない。 Escape Room や 2-Player のクリーンアップ環境において,IQ-Flow が最先端のインセンティブ設計アルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-28T14:44:29Z)
Asymptotic Convergence and Performance of Multi-Agent Q-Learning Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文参考訳（メタデータ） (2023-01-23T18:39:11Z)
Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文参考訳（メタデータ） (2022-05-29T07:39:09Z)
DQMIX: A Distributional Perspective on Multi-Agent Reinforcement Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文参考訳（メタデータ） (2022-02-21T11:28:00Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)
Balanced Q-learning: Combining the Influence of Optimistic and Pessimistic Targets [74.04426767769785]
シナリオによっては、特定の種類の偏見が好ましいかもしれないことを示す。そこで我々は,目標を悲観的かつ楽観的な用語の凸組合せに修正した新しい強化学習アルゴリズムであるBa balanced Q-learningを設計する。
論文参考訳（メタデータ） (2021-11-03T07:30:19Z)
Parameter-Free Deterministic Reduction of the Estimation Bias in Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文参考訳（メタデータ） (2021-09-24T07:41:07Z)
Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。 2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文参考訳（メタデータ） (2021-04-18T06:17:54Z)
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2020-10-21T11:19:53Z)
ConQUR: Mitigating Delusional Bias in Deep Q-learning [45.21332566843924]
妄想バイアスは、近似Q-ラーニングにおける基本的なエラー源である。我々は,根底にある欲求政策クラスと「一致」したラベルを持つQ近似器を訓練することで,妄想バイアスを緩和する効率的な方法を開発した。
論文参考訳（メタデータ） (2020-02-27T19:22:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。