論文の概要: When to Switch, Not Just What: Transition Quality Prediction in Clash Royale
- arxiv url: http://arxiv.org/abs/2605.21868v1
- Date: Thu, 21 May 2026 01:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.504176
- Title: When to Switch, Not Just What: Transition Quality Prediction in Clash Royale
- Title(参考訳): クラッシュロワイヤルの経時的品質予測
- Authors: Heeyun Heo, Huy Kang Kim,
- Abstract要約: 競技ゲームでは、プレイヤーはストリークを失った後に戦略を切り替えることが多いが、34,619人のクラッシュロイヤル選手の926,334試合記録の分析では、直感的パターンが明らかにされている。
本報告では, スイッチングの動作コストを見越しながら, 期待品質による戦略評価を行う, 従来のレコメンデーションシステムにおいて, 共通的な制限が原因と考えられる。
評価指標であるSwitchGapを導入する。これは、観測されたプレイヤー選択を最適基底真理として扱うことなく、政策の差別的品質を測定する。
- 参考スコア(独自算出の注目度): 2.685668802278155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In competitive games, players frequently switch strategies after losing streaks, yet our analysis of 926,334 match records from 34,619 Clash Royale players reveals a counterintuitive pattern: switching frequency is inversely associated with the win rate, with effects that vary substantially across players and situational contexts. We attribute this to a limitation common in many prior recommendation systems, which evaluate strategies by expected quality while overlooking the behavioral cost of switching and individual differences in switching propensity. We refer to this implicit premise as the Zero Switching Cost Assumption. To address this, we reformulate strategy recommendation as a transition-level decision problem and instantiate it as TQP (Transition Quality Predictor), a three-stage pipeline structured as Who -> When -> What. PersonaGate suppresses recommendations for players whose strategic consistency is empirically associated with superior outcomes. TimingGate identifies moments when switching is likely to yield a net benefit over staying, using a subtype- and state-matched baseline to control for natural win-rate recovery. ScoreFusion ranks candidate strategies by combining an adoptability signal with predicted transition quality (delta WR). We further introduce SwitchGap, an evaluation metric that measures a policy's discriminative quality without treating observed player choices as optimal ground truth. This property is particularly important because the most frequent switchers record the lowest win rates. The full pipeline achieves a SwitchGap of +10.4 percentage points at a recommendation rate of 5.4%, and loss-triggered switchers, despite being the lowest-performing group, benefit the most from subtype-conditioned guidance.
- Abstract(参考訳): 競技ゲームでは、プレイヤーはストリークをなくした後、戦略を頻繁に切り替えるが、34,619人のクラッシュロイヤル選手による926,334のマッチレコードの分析では、切り替え頻度が勝利率と逆相関し、プレイヤーと状況によって大きく異なる影響が示される。
これは,スイッチングの動作コストとスイッチング確率の個人差を見越しながら,期待品質による戦略評価を行う,従来の多くのレコメンデーションシステムに共通する制限に起因している。
我々は、この暗黙の前提をゼロ・スイッチング・コスト・アセスメント(Zero Switching Cost Assumption)と呼ぶ。
そこで我々は,戦略勧告をトランジションレベルの決定問題として再編成し,それをTQP(Transition Quality Predictor)としてインスタンス化する。
PersonaGateは、戦略的一貫性が経験的に優れた結果に結びついているプレイヤーのレコメンデーションを抑圧する。
TimingGateは、サブタイプとステートマッチングベースラインを使用して、スイッチング時のモーメントを、自然の勝利率回復を制御することによって、滞在よりも純利益をもたらす可能性がある、と特定する。
ScoreFusionは、適応性信号と予測される遷移品質(デルタWR)を組み合わせることで、候補戦略をランク付けする。
さらに、観測されたプレイヤー選択を最適基底真理として扱うことなく、政策の差別的品質を測定する評価指標であるSwitchGapを紹介する。
この性質は特に重要であり、最も頻繁なスイッチャーは最も低い勝利率を記録した。
全パイプラインは5.4%のリコメンデーションレートで+10.4ポイントのSwitchGapを達成し、低パフォーマンスなグループであるにもかかわらず、損失トリガースイッチナーはサブタイプのガイダンスの恩恵を受けている。
関連論文リスト
- Towards Context-Invariant Safety Alignment for Large Language Models [37.23800025875439]
我々は,検証可能なプロンプトをアンカーとして扱うアンカー不変性正規化(AIR)を導入し,アンカー性能に対するオープンエンド変種のみを正規化するために,停止段階のターゲットを用いる。
AIRは、流通グループの精度を12.71%向上し、流通の一貫性を33.49%向上させ、敵のフレーミングに対する安全性の制約を堅牢にする。
論文 参考訳(メタデータ) (2026-05-20T10:33:11Z) - SPIKE: An Adaptive Dual Controller Framework for Cost-Efficient Long-Horizon Game Agents [74.84742205422825]
コスト効率のよい長軸ゲーム制御のための適応型デュアルコントローラフレームワークSPIKEを提案する。
Strategic Controllerは低周波のグローバル計画、障害解析、リカバリを実行し、Reactive Controllerは厳格なトークン予算の下で高速なローカル実行を処理する。
Event Triggerは、視覚的な変化、タスクの進捗、繰り返しアクション、障害信号を監視して、制御がいつ反応性を保つか、あるいは戦略的な推論にエスカレートするかを判断する。
この設計は、複数のリアクティブステップにまたがる戦略的な提案を再利用し、計画が不安定になると局所的なオーバライドをサポートし、余分な議論が役に立つ瞬間に高価な推論を予約する。
論文 参考訳(メタデータ) (2026-05-18T16:43:32Z) - Near-Optimal Last-Iterate Convergence for Zero-Sum Games with Bandit Feedback and Opponent Actions [43.45624707071202]
ゲームにおける学習力学の最後の項目収束は、近年大きな注目を集めている。
我々は, t(-1/2) の終点収束は, バンディットフィードバックを持つゲームにおいて高い確率で達成可能であることを示す。
論文 参考訳(メタデータ) (2026-05-10T06:23:19Z) - The Reciprocity Gradient [52.35929743862925]
コミュニケーションは、戦略的相互作用における相互性と協力を維持するための基本である。
学習エージェントに特有の集中的最適化の難しさとして,影響帰属問題を同定し,定式化する。
これを解決するために、公衆の観察から訓練された相手の政策の個人推定器を通して、報酬勾配を明示的に逆伝搬する相互性勾配を導入する。
論文 参考訳(メタデータ) (2026-05-08T16:29:52Z) - StratFormer: Adaptive Opponent Modeling and Exploitation in Imperfect-Information Games [0.8574682463936006]
StratFormerはトランスフォーマーベースのメタエージェントで、不完全な情報ゲームで対戦相手を同時にモデル化し、活用することを学ぶ。
StratFormer は GTO 上で1人当たり平均 0.106 BB の攻撃ゲインを達成し、高い攻撃力を持つ相手に対して 0.821 のピークゲインを達成している。
論文 参考訳(メタデータ) (2026-04-28T16:03:14Z) - Persona Switch: Mixing Distinct Perspectives in Decoding Time [21.49017923823084]
ロールプレイプロンプトはペルソナをプロンプトに注入し、ゼロショット推論機能を改善する。
この矛盾は、ゼロショットとロールプレイの促進が相補的な強みをもたらすことを示唆している。
両戦略の利点を動的に組み合わせた新しい復号法であるペルソナスイッチを提案する。
論文 参考訳(メタデータ) (2026-01-22T07:30:27Z) - Enhancing Language Agent Strategic Reasoning through Self-Play in Adversarial Games [60.213483076150844]
本稿では,PLAY-And-Learn,SCO-PALを用いたステップレベルのポリCy最適化手法を提案する。
対戦相手を異なるレベルに設定することで、対戦相手の選択を詳細に分析し、戦略的推論を改善する最も効果的な方法が自己プレーであることを見出した。
我々は6試合でGPT-4に対して54.76%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-10-19T09:03:28Z) - Swap Regret and Correlated Equilibria Beyond Normal-Form Games [62.01542145970044]
「我々は、プロファイルスワップ後悔と呼ぶポリトープゲームのスワップ後悔の新しい変種を提示する。」
プロファイルスワップ後悔は、プレイの書き起こしが与えられた場合、NPハードであることが示されるが、少なくとも$O(sqrtT)$プロファイルスワップ後悔を保証する効率的な学習アルゴリズムを設計することは可能である。
論文 参考訳(メタデータ) (2025-02-27T16:16:26Z) - Personalized Denoising Implicit Feedback for Robust Recommender System [60.719158008403376]
ユーザの個人的損失分布には,正常なインタラクションとノイズの多いインタラクションが明確に区別されていることを示す。
本稿では,ユーザのパーソナライズロス分布であるPLDを用いてDenoiseに対する再サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-01T07:13:06Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。