論文の概要: Learning from Delayed Feedback in Games via Extra Prediction
- arxiv url: http://arxiv.org/abs/2509.22426v1
- Date: Fri, 26 Sep 2025 14:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.51456
- Title: Learning from Delayed Feedback in Games via Extra Prediction
- Title(参考訳): 余剰予測によるゲームにおける遅延フィードバックからの学習
- Authors: Yuma Fujimoto, Kenshi Abe, Kaito Ariu,
- Abstract要約: 本研究は,ゲーム学習における時間遅延フィードバックの問題を提起し,解決するものである。
この矛盾を克服するために、将来の報奨の予測はアルゴリズム(通常はOptimistic Follow-the-Regularized-Leader (OFTRL))に組み込まれる。
- 参考スコア(独自算出の注目度): 26.93300099029726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study raises and addresses the problem of time-delayed feedback in learning in games. Because learning in games assumes that multiple agents independently learn their strategies, a discrepancy in optimization often emerges among the agents. To overcome this discrepancy, the prediction of the future reward is incorporated into algorithms, typically known as Optimistic Follow-the-Regularized-Leader (OFTRL). However, the time delay in observing the past rewards hinders the prediction. Indeed, this study firstly proves that even a single-step delay worsens the performance of OFTRL from the aspects of regret and convergence. This study proposes the weighted OFTRL (WOFTRL), where the prediction vector of the next reward in OFTRL is weighted $n$ times. We further capture an intuition that the optimistic weight cancels out this time delay. We prove that when the optimistic weight exceeds the time delay, our WOFTRL recovers the good performances that the regret is constant ($O(1)$-regret) in general-sum normal-form games, and the strategies converge to the Nash equilibrium as a subsequence (best-iterate convergence) in poly-matrix zero-sum games. The theoretical results are supported and strengthened by our experiments.
- Abstract(参考訳): 本研究は,ゲーム学習における時間遅延フィードバックの問題を提起し,解決するものである。
ゲームにおける学習は、複数のエージェントが独立して戦略を学習すると仮定するため、最適化の相違はしばしばエージェント間で現れる。
この矛盾を克服するために、将来の報酬の予測はアルゴリズム(通常はOptimistic Follow-the-Regularized-Leader (OFTRL)として知られる)に組み込まれる。
しかし、過去の報奨を観察する際の遅延は予測を妨げている。
実際、この研究はまず、単一ステップの遅延でさえ、後悔と収束の側面からOFTRLの性能を悪化させることを証明した。
本研究は、OFTRLの次報酬の予測ベクトルがn$倍になる重み付きOFTRL(WOFTRL)を提案する。
さらに私たちは、楽観的な重みが今回の遅延をキャンセルするという直感を捉えています。
我々は、楽観的な重みが時間遅延を超えると、WOFTRLは、一般のサム正規形式ゲームにおいて後悔が一定である(O(1)$-regret)という良好な性能を回復し、その戦略は、ポリマトリクスゼロサムゲームにおけるサブシーケンス(ベストイテレート収束)としてナッシュ平衡に収束することを示した。
理論的結果は我々の実験によって支持され、強化される。
関連論文リスト
- Seeing the Arrow of Time in Large Multimodal Models [55.13176722268499]
現在の大規模マルチモーダルモデル(LMM)は、言語クエリに応答する際のビデオの時間方向の知覚と利用に苦慮している。
本稿では,強化学習(RL)に基づく学習戦略であるArrowRLを紹介する。
厳密な評価のために、時間的課題を探索する新しい多面的ベンチマークであるAoTBenchを開発する。
論文 参考訳(メタデータ) (2025-06-03T19:32:07Z) - Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning [60.67176246634741]
メタ強化学習(RL)問題としてテスト時間計算を最適化する問題を定式化する。
現状のモデルでは後悔を最小限に抑えることはできないが,結果0/1報酬RLと合わせて報酬ボーナスを最大化することで,それを実現できることを示す。
論文 参考訳(メタデータ) (2025-03-10T17:40:43Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - No-regret learning in harmonic games: Extrapolation in the face of conflicting interests [45.94247914236653]
学習は任意の初期状態からナッシュ均衡に収束し、すべてのプレイヤーは、ほとんどのO(1)後悔において保証される。
結果は、ハーモニックゲームにおける非回帰学習の深い理解を提供する。
論文 参考訳(メタデータ) (2024-12-28T16:28:13Z) - Bootstrapping Expectiles in Reinforcement Learning [25.793702194455772]
多くの古典的強化学習(RL)アルゴリズムは、次の状態への期待を含むベルマン演算子に依存している。
実際にこれは、$L$損失を、批評家にとってより一般的な期待損失に置き換えることによって、非常に簡単にできる。
過大評価問題に対して,提案手法は古典的ツインクリティカルよりも優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T13:51:39Z) - Achieving Better Regret against Strategic Adversaries [15.51709428653595]
本研究では,学習者が相手の行動について余分な知識を持つオンライン学習問題について検討する。
我々は,正規化リーダ(AFTRL)とProd-Best Response(Prod-BR)の2つの新しいオンライン学習アルゴリズムを提案する。
AFTRLは、外部の後悔に対して$O(1)$、または$O(1)$、遠回りの後悔に対して$O(1)$を達成する。
論文 参考訳(メタデータ) (2023-02-13T19:34:36Z) - Asynchronous Gradient Play in Zero-Sum Multi-agent Games [25.690033495071923]
ゼロサムポリマトリクスゲームにおける遅延フィードバック下での非同期勾配プレイについて検討した。
我々の知る限りでは、この研究はゼロサムポリマトリクスゲームにおける非同期勾配プレイを理解することを目的とした最初のものである。
論文 参考訳(メタデータ) (2022-11-16T15:37:23Z) - Faster Game Solving via Predictive Blackwell Approachability: Connecting
Regret Matching and Mirror Descent [119.5481797273995]
FTRL (Follow-the-regularized-leader) とオンラインミラー降下 (OMD) は、オンライン凸最適化における最も一般的な後悔の最小化手法である。
RMとRM+はFTRLとOMDをそれぞれ実行し、ブラックウェルのアプローチ性ゲームにおいて、ハーフスペースを常に強制的に選択するアルゴリズムであることを示す。
18の共通ゼロサムワイドフォームベンチマークゲームを対象とした実験では,予測的RM+と反ファクト的後悔の最小化が,最速のアルゴリズムよりもはるかに高速に収束することを示した。
論文 参考訳(メタデータ) (2020-07-28T16:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。