論文の概要: Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games
- arxiv url: http://arxiv.org/abs/2505.16401v1
- Date: Thu, 22 May 2025 08:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.163424
- Title: Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games
- Title(参考訳): Divide-Fuse-Conquer:マルチシナリオゲームにおける"Aha Moments"の回避
- Authors: Xiaoqing Zhang, Huabin Zheng, Ang Lv, Yuhan Liu, Zirui Song, Flood Sung, Xiuying Chen, Rui Yan,
- Abstract要約: 大規模言語モデル(LLM)は、強化学習(RL)中に突然高度な推論能力を示すことが観察されている。
マルチシナリオRLにおける一般化を促進するためのフレームワークであるDivide-Fuse-Conquerを提案する。
- 参考スコア(独自算出の注目度): 36.16284323379845
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have been observed to suddenly exhibit advanced reasoning abilities during reinforcement learning (RL), resembling an ``aha moment'' triggered by simple outcome-based rewards. While RL has proven effective in eliciting such breakthroughs in tasks involving mathematics, coding, and vision, it faces significant challenges in multi-scenario games. The diversity of game rules, interaction modes, and environmental complexities often leads to policies that perform well in one scenario but fail to generalize to others. Simply combining multiple scenarios during training introduces additional challenges, such as training instability and poor performance. To overcome these challenges, we propose Divide-Fuse-Conquer, a framework designed to enhance generalization in multi-scenario RL. This approach starts by heuristically grouping games based on characteristics such as rules and difficulties. Specialized models are then trained for each group to excel at games in the group is what we refer to as the divide step. Next, we fuse model parameters from different groups as a new model, and continue training it for multiple groups, until the scenarios in all groups are conquered. Experiments across 18 TextArena games show that Qwen2.5-32B-Align trained with the Divide-Fuse-Conquer strategy reaches a performance level comparable to Claude3.5, achieving 7 wins and 4 draws. We hope our approach can inspire future research on using reinforcement learning to improve the generalization of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、単純な結果に基づく報酬によって引き起こされる'aha moment'のような強化学習(RL)中に突然高度な推論能力を示すことが観察されている。
RLは数学、コーディング、ビジョンを含むタスクにおいてそのようなブレークスルーを引き出すのに効果的であることが証明されているが、マルチシナリオゲームにおいて大きな課題に直面している。
ゲームルール、インタラクションモード、環境の複雑さの多様性は、1つのシナリオでうまく機能するが、他のシナリオに一般化することができないポリシーにつながることが多い。
トレーニング中に複数のシナリオを組み合わせることで、トレーニングの不安定性やパフォーマンスの低下といった、新たな課題がもたらされる。
これらの課題を克服するために,マルチシナリオRLにおける一般化を促進するためのフレームワークであるDivide-Fuse-Conquerを提案する。
このアプローチはルールや難易度といった特性に基づいてゲームをヒューリスティックにグループ化することから始まる。
次に、各グループがグループ内のゲームに精通するように訓練されたモデルが、分割ステップと呼ばれるものです。
次に、異なるグループのモデルパラメータを新しいモデルとして融合し、すべてのグループのシナリオが征服されるまで、複数のグループのトレーニングを継続する。
18のTextArenaゲームでの実験では、Qwen2.5-32B-AlignがDivide-Fuse-Conquer戦略で訓練され、Claude3.5に匹敵するパフォーマンスレベルに達し、7勝4引きを記録した。
我々は,LLMの一般化を改善するため,強化学習の活用に関する今後の研究に刺激を与えることができることを願っている。
関連論文リスト
- G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning [37.18982308118744]
VLM(Vision-Language Models)は多くの直接的なマルチモーダルタスクに優れていますが、ゲームのようなインタラクティブで視覚的にリッチな環境において、この成果を効果的な意思決定に変換するのに苦労しています。
VLM-Gymは多種多様なビジュアルゲームに統一されたインタフェースと調整可能な構成難易度を備えた強化学習環境である。
我々は、純粋なRL駆動の自己進化を用いてG0モデルを訓練し、創発的知覚と推論パターンを示す。
我々のG1モデルは、すべてのゲームで一貫して教師を追い越し、Claude-3.7-Sonnet-Thinkingのような主要なプロプライエタリモデルより優れています。
論文 参考訳(メタデータ) (2025-05-19T17:54:39Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Balancing the AI Strength of Roles in Self-Play Training with Regret
Matching+ [1.5591858554014466]
ゲーム内の任意のキャラクタを制御することができる一般化モデルは、実行可能な選択肢を示す。
この戦略は、トレーニングフェーズ中の計算リソースと時間を保存するだけでなく、デプロイメント時のリソース要求も低減します。
Regret Matching+をベースとした簡易な手法が提案され、様々な役割を制御する際のモデルによる強度のバランスのとれたパフォーマンスが促進される。
論文 参考訳(メタデータ) (2024-01-23T08:27:38Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Mimicking To Dominate: Imitation Learning Strategies for Success in
Multiagent Competitive Games [13.060023718506917]
我々は、対戦者の次の動きを予測するための新しいマルチエージェント模倣学習モデルを開発する。
また、模倣学習モデルとポリシートレーニングを組み合わせた、新しいマルチエージェント強化学習アルゴリズムを1つのトレーニングプロセスに導入する。
実験結果から,本手法は既存のマルチエージェントRLアルゴリズムと比較して性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-20T07:30:13Z) - TiZero: Mastering Multi-Agent Football with Curriculum Learning and
Self-Play [19.98100026335148]
TiZeroは、スクラッチから学習する自己進化型マルチエージェントシステムである。
これは、Google Research Footballの環境において、これまでのシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-02-15T08:19:18Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。