論文の概要: For How Long Should We Be Punching? Learning Action Duration in Fighting Games
- arxiv url: http://arxiv.org/abs/2605.20911v1
- Date: Wed, 20 May 2026 08:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.581419
- Title: For How Long Should We Be Punching? Learning Action Duration in Fighting Games
- Title(参考訳): いつまでパンチすべきなのか? ファイティングゲームにおける学習行動期間
- Authors: Hoang Hai Nguyen, Kurt Driessens, Dennis J. N. J. Soemers,
- Abstract要約: ストリートファイターIIのようなファイティングゲームは、その高速でリアルタイムな性質のため、強化学習(RL)エージェントに固有の課題を提示している。
ほとんどのRLフレームワークでは、エージェントは固定間隔(典型的にはすべてのフレームまたはすべてのNフレーム)で決定するためにハードコードされる。
我々は,エージェントがどの行動をとるかだけでなく,実行に要する時間についても学習する,代替的な意思決定フレームワークを検討する。
- 参考スコア(独自算出の注目度): 0.6417777780911224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fighting games such as Street Fighter II present unique challenges to reinforcement learning (RL) agents due to their fast-paced, real-time nature. In most RL frameworks, agents are hard-coded to make decisions at a fixed interval, typically every frame or every N frames. Although this design ensures timely responses, it restricts the agent's ability to adjust its reaction timing. Acting every frame grants frame-perfect reflexes, which are unrealistic compared to human players, whereas longer fixed intervals reduce computational cost but hinder responsiveness. We consider an alternative decision-making framework in which the agent learns not only what action to take but also for how long to execute it. By jointly predicting both action and duration, the agent can dynamically adapt its responsiveness to different situations in the game. We implement this method using the open-source FightLadder environment with agents trained against scripted built-in bots, systematically testing different frame skip configurations to analyze their influence on performance, responsiveness, and learned behavior. Experiments show that learned timing can match the performance of well-chosen fixed frame skips and encourages repeatable action patterns, but does not ensure robustness on its own. In most cases, we see agents performing best with consistently high frame skip values (i.e., low responsiveness). This strategy makes it easier to learn exploitative strategies where the same action is repeated over and over, which the scripted bots appear to be susceptible to.
- Abstract(参考訳): ストリートファイターIIのようなファイティングゲームは、その高速でリアルタイムな性質のため、強化学習(RL)エージェントに固有の課題を提示している。
ほとんどのRLフレームワークでは、エージェントは固定間隔(典型的にはすべてのフレームまたはすべてのNフレーム)で決定するためにハードコードされる。
この設計はタイムリーな応答を保証するが、エージェントの反応タイミングを調整する能力を制限する。
すべてのフレームを実行することで、人間のプレイヤーと比べて非現実的なフレーム完全反射が与えられるが、より長い固定間隔は計算コストを削減できるが応答性を妨げている。
我々は,エージェントがどの行動をとるかだけでなく,実行に要する時間についても学習する,代替的な意思決定フレームワークを検討する。
アクションと持続時間の両方を共同で予測することにより、エージェントはゲームの異なる状況に応答性を動的に適応させることができる。
本研究では,オープンソースのFightLadder環境を用いて,スクリプト組み込みボットに対して訓練されたエージェントを用いて,異なるフレームスキップ構成を体系的にテストし,その性能,応答性,学習行動への影響を分析する。
実験により、学習タイミングは固定フレームスキップの性能と一致し、繰り返し可能な動作パターンを奨励するが、自分自身で堅牢性を確保することはできないことが示された。
ほとんどの場合、一貫したフレームスキップ値(つまり応答性が低い)で最高の処理を行うエージェントが見られます。
この戦略は、スクリプト化されたボットが影響を受けやすいように、同じアクションが何度も繰り返される悪用的な戦略を学習しやすくする。
関連論文リスト
- LM Fight Arena: Benchmarking Large Multimodal Models via Game Competition [104.81487689011341]
本稿では,Mortal Kombat IIにおける大規模マルチモーダルモデルを評価する新しいフレームワークであるLM Fight Arenaを紹介する。
静的評価とは異なり、LM Fight Arenaは完全に自動化され、再現可能で、LMMの戦略的推論能力の客観的評価を提供する。
論文 参考訳(メタデータ) (2025-10-10T02:19:21Z) - Temporal Alignment-Free Video Matching for Few-shot Action Recognition [20.79048009076496]
提案手法は, 動作表現における時間単位の必要性を排除し, マッチング中にブルートフォースアライメントを不要とした, TEmporal Alignment-free Matching手法を提案する。
具体的には、TEAMは、アクションの長さや速度に関わらず、ビデオインスタンス内のグローバルな識別ヒントをキャプチャする、固定されたパターントークンセットで、各ビデオを表現する。
本稿では,クラス間の共通情報を識別・削除する適応プロセスを提案し,新しいカテゴリ間においても明確な境界を確立する。
論文 参考訳(メタデータ) (2025-04-08T12:11:11Z) - Preference-based opponent shaping in differentiable games [3.373994463906893]
そこで我々は,エージェントの嗜好を協調に向けて形作ることによって,戦略学習プロセスを強化するためのPBOS法を提案する。
様々な異なるゲームにおいてPBOSアルゴリズムの性能を検証する。
論文 参考訳(メタデータ) (2024-12-04T06:49:21Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient Use of heuristics for accelerating XCS-based Policy Learning
in Markov Games [9.038065438586065]
ゲームでは、学習能力を持つ非定常的な対戦相手と対戦することは、強化学習エージェントにとって依然として困難である。
本稿では,協調学習者と対戦する際の政策学習を高速化するために,粗い論文を効果的に活用することを提案する。
論文 参考訳(メタデータ) (2020-05-26T07:47:27Z) - Sparse Black-box Video Attack with Reinforcement Learning [14.624074868199287]
ブラックボックスビデオ攻撃を強化学習フレームワークに定式化する。
RLの環境を認識モデルとし、RLのエージェントがフレーム選択の役割を果たす。
我々は2つの主流ビデオ認識モデルを用いて一連の実験を行う。
論文 参考訳(メタデータ) (2020-01-11T14:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。