論文の概要: Learned Collusion
- arxiv url: http://arxiv.org/abs/2304.12647v3
- Date: Wed, 28 May 2025 15:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:49.938802
- Title: Learned Collusion
- Title(参考訳): 学びながらの衝突
- Authors: Olivier Compte,
- Abstract要約: 我々は、Q値に基づくオートマタのファミリーを考え、そのポリシーは、体系的に他人よりもいくつかの行動を好むかもしれない。
我々はロジット/ベスト-レスポンスのダイナミクスを収束させることで容易に学習できる安定平衡バイアスを求める。
これらのバイアスは、豊富なペイオフと監視構造をまたいだ共謀や協力を強く促進します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q-learning can be described as an all-purpose automaton that provides estimates (Q-values) of the continuation values associated with each available action and follows the naive policy of almost always choosing the action with highest Q-value. We consider a family of automata based on Q-values, whose policy may systematically favor some actions over others, for example through a bias that favors cooperation. We look for stable equilibrium biases, easily learned under converging logit/best-response dynamics over biases, not requiring any tacit agreement. These biases strongly foster collusion or cooperation across a rich array of payoff and monitoring structures, independently of initial Q-values.
- Abstract(参考訳): Q-ラーニングは、利用可能な各アクションに関連する継続値の見積もり(Q-値)を提供し、最も高いQ-値のアクションをほぼ常に選択する素質的なポリシーに従う全目的オートマトンとして記述することができる。
我々は、Q値に基づくオートマタのファミリーを考え、そのポリシーは、例えば協調を好むバイアスを通じて、他者よりも体系的にいくつかの行動を好むかもしれない。
バイアスに対するロジット/ベスト-レスポンスのダイナミクスを収束させ、暗黙の合意を必要とせず、容易に学習できる安定な平衡バイアスを求める。
これらのバイアスは、初期Q値とは独立して、豊富なペイオフと監視構造間の共謀や協力を強く促進する。
関連論文リスト
- Q-Distribution guided Q-learning for offline reinforcement learning: Uncertainty penalized Q-value via consistency model [14.15965650090744]
我々は,不確実性推定に基づいて,OOD領域のQ値に悲観的な調整を施したQ-Distriion Guided Q-Learning (QDQ)を提案する。
QDQは一貫してD4RLベンチマークで強いパフォーマンスを示し、多くのタスクで大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-27T02:39:25Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - IQ-Flow: Mechanism Design for Inducing Cooperative Behavior to
Self-Interested Agents in Sequential Social Dilemmas [0.0]
Incentive Q-Flow (IQ-Flow) アルゴリズムを提案する。
自己関心のあるエージェントのインセンティブを学習する既存の方法とは異なり、IQ-Flowはエージェントのポリシーに関する仮定を一切行わない。
Escape Room や 2-Player のクリーンアップ環境において,IQ-Flow が最先端のインセンティブ設計アルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T14:44:29Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。
学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Balanced Q-learning: Combining the Influence of Optimistic and
Pessimistic Targets [74.04426767769785]
シナリオによっては、特定の種類の偏見が好ましいかもしれないことを示す。
そこで我々は,目標を悲観的かつ楽観的な用語の凸組合せに修正した新しい強化学習アルゴリズムであるBa balanced Q-learningを設計する。
論文 参考訳(メタデータ) (2021-11-03T07:30:19Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。