論文の概要: Learning Tennis Strategy Through Curriculum-Based Dueling Double Deep Q-Networks
- arxiv url: http://arxiv.org/abs/2512.22186v1
- Date: Sat, 20 Dec 2025 04:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.867507
- Title: Learning Tennis Strategy Through Curriculum-Based Dueling Double Deep Q-Networks
- Title(参考訳): ダブルディープQ-Networksによるカリキュラムベースのテニス戦略の学習
- Authors: Vishnu Mohan,
- Abstract要約: テニス戦略最適化は、階層的スコアリング、結果、長期クレジット割り当て、身体的疲労、相手スキルへの適応を含む、挑戦的な意思決定問題である。
本稿では,カリキュラム学習を用いて学習したDueling Double Deep Q-Networkと,独自のテニスシミュレーション環境を統合した強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.3181222613501246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tennis strategy optimization is a challenging sequential decision-making problem involving hierarchical scoring, stochastic outcomes, long-horizon credit assignment, physical fatigue, and adaptation to opponent skill. I present a reinforcement learning framework that integrates a custom tennis simulation environment with a Dueling Double Deep Q-Network(DDQN) trained using curriculum learning. The environment models complete tennis scoring at the level of points, games, and sets, rally-level tactical decisions across ten discrete action categories, symmetric fatigue dynamics, and a continuous opponent skill parameter. The dueling architecture decomposes action-value estimation into state-value and advantage components, while double Q-learning reduces overestimation bias and improves training stability in this long-horizon stochastic domain. Curriculum learning progressively increases opponent difficulty from 0.40 to 0.50, enabling robust skill acquisition without the training collapse observed under fixed opponents. Across extensive evaluations, the trained agent achieves win rates between 98 and 100 percent against balanced opponents and maintains strong performance against more challenging opponents. Serve efficiency ranges from 63.0 to 67.5 percent, and return efficiency ranges from 52.8 to 57.1 percent. Ablation studies demonstrate that both the dueling architecture and curriculum learning are necessary for stable convergence, while a standard DQN baseline fails to learn effective policies. Despite strong performance, tactical analysis reveals a pronounced defensive bias, with the learned policy prioritizing error avoidance and prolonged rallies over aggressive point construction. These results highlight a limitation of win-rate driven optimization in simplified sports simulations and emphasize the importance of reward design for realistic sports reinforcement learning.
- Abstract(参考訳): テニス戦略最適化は、階層的スコアリング、確率的結果、長期クレジット割り当て、身体的疲労、相手スキルへの適応を含む、挑戦的な意思決定問題である。
本稿では,Dueling Double Deep Q-Network(DDQN)と独自のテニスシミュレーション環境を統合した強化学習フレームワークを提案する。
環境モデルは、ポイント、ゲーム、セットのレベルにおけるテニススコア、10の個別アクションカテゴリにわたるラリーレベルの戦術決定、対称的疲労ダイナミクス、そして連続的な相手スキルパラメータのレベルにおいて、テニススコアを完遂する。
デュエルアーキテクチャは、動作値の推定を状態値と有利なコンポーネントに分解する一方、二重Q学習は過大評価バイアスを低減し、この長い水平確率領域におけるトレーニング安定性を改善する。
カリキュラム学習は、相手の難易度を0.40から0.50に徐々に増加させ、一定の相手の下で観察されるトレーニング崩壊を伴わない堅牢なスキル獲得を可能にする。
広範囲な評価において、訓練されたエージェントは、バランスのとれた相手に対して98から100%の勝利率を達成し、より挑戦的な相手に対して強いパフォーマンスを維持する。
サーブ効率は63.0から67.5%、リターン効率は52.8から57.1%である。
アブレーション研究は、デュエルアーキテクチャとカリキュラム学習の両方が安定した収束のために必要であり、標準のDQNベースラインは効果的なポリシーを学習できないことを示した。
高い性能にもかかわらず、戦術的分析は明らかな防御バイアスを示し、学習方針は攻撃的な点構築よりもエラー回避と長大な相関を優先している。
これらの結果は,スポーツシミュレーションの簡易化における勝利率駆動最適化の限界を強調し,現実的なスポーツ強化学習における報酬設計の重要性を強調した。
関連論文リスト
- DiffFP: Learning Behaviors from Scratch via Diffusion-based Fictitious Play [5.8808473430456525]
ゼロサムゲームにおける未確認相手に対する最良の応答を推定する架空のプレイフレームワークであるDiffFPを提案する。
レースや多粒子ゼロサムゲームを含む複雑なマルチエージェント環境において,本手法の有効性を検証した。
提案手法は, RLベースのベースラインに対して, 最大で3$times$高速収束, 30$times$高い成功率を達成する。
論文 参考訳(メタデータ) (2025-11-17T09:48:29Z) - Enhancing Language Agent Strategic Reasoning through Self-Play in Adversarial Games [60.213483076150844]
本稿では,PLAY-And-Learn,SCO-PALを用いたステップレベルのポリCy最適化手法を提案する。
対戦相手を異なるレベルに設定することで、対戦相手の選択を詳細に分析し、戦略的推論を改善する最も効果的な方法が自己プレーであることを見出した。
我々は6試合でGPT-4に対して54.76%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-10-19T09:03:28Z) - SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning [27.20778530252474]
SPIRALは、モデルをマルチターン、ゼロサムゲームで学習し、自身のバージョンを継続的に改善するセルフプレイフレームワークである。
SPIRALを用いることで、ゼロサムゲーム上でのセルフプレイは、広く移動する推論能力を生み出す。
分析により, この伝達は, 系統的分解, 期待値計算, ケース・バイ・ケース分析という3つの認知的パターンを通じて起こることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-30T17:58:13Z) - Enhancing Adversarial Training via Reweighting Optimization Trajectory [72.75558017802788]
余分な正規化、敵の重み付け、より多くのデータによるトレーニングといった欠点に対処するいくつかのアプローチが提案されている。
本稿では, 時間内学習の最適化トラジェクトリを利用するtextbfWeighted Optimization Trajectories (WOT) を提案する。
以上の結果から,WOTは既存の対人訓練手法とシームレスに統合され,頑健なオーバーフィッティング問題を一貫して克服していることがわかった。
論文 参考訳(メタデータ) (2023-06-25T15:53:31Z) - Strength-Adaptive Adversarial Training [103.28849734224235]
対戦訓練(AT)は、敵データに対するネットワークの堅牢性を確実に改善することが証明されている。
所定の摂動予算を持つ現在のATは、堅牢なネットワークの学習に制限がある。
本稿では,これらの制限を克服するために,emphStrength-Adaptive Adversarial Training (SAAT)を提案する。
論文 参考訳(メタデータ) (2022-10-04T00:22:37Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Improving the affordability of robustness training for DNNs [11.971637253035107]
逆行訓練の初期段階は冗長であり、計算効率を大幅に向上させる自然な訓練に置き換えることができることを示す。
提案手法は, 各種敵攻撃の強みに対するモデルテスト精度と一般化により, 最大2.5倍の訓練時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-02-11T07:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。