論文の概要: MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games
- arxiv url: http://arxiv.org/abs/2603.09022v1
- Date: Mon, 09 Mar 2026 23:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.897077
- Title: MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games
- Title(参考訳): MEMO:ロバストマルチターンマルチエージェントLLMゲームのためのメモリ拡張モデルコンテキスト最適化
- Authors: Yunfei Xie, Kevin Wang, Bobby Cheng, Jianzhu Yao, Zhizhou Sha, Alexander Duffy, Yihan Xi, Hongyuan Mei, Cheston Tan, Chen Wei, Pramod Viswanath, Zhangyang Wang,
- Abstract要約: マルチエージェントゲームの評価は、しばしば実質的なラン・ツー・ランのばらつきを示す。
回転する小さな偏差は、多エージェントカップリングによって増幅される。
自己再生フレームワークであるMEMO(Memory-augmented MOdel context optimization)を用いて,不安定性とアンダーパフォーマンスの両面に対処する。
- 参考スコア(独自算出の注目度): 79.72300527041534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-turn, multi-agent LLM game evaluations often exhibit substantial run-to-run variance. In long-horizon interactions, small early deviations compound across turns and are amplified by multi-agent coupling. This biases win rate estimates and makes rankings unreliable across repeated tournaments. Prompt choice worsens this further by producing different effective policies. We address both instability and underperformance with MEMO (Memory-augmented MOdel context optimization), a self-play framework that optimizes inference-time context by coupling retention and exploration. Retention maintains a persistent memory bank that stores structured insights from self-play trajectories and injects them as priors during later play. Exploration runs tournament-style prompt evolution with uncertainty-aware selection via TrueSkill, and uses prioritized replay to revisit rare and decisive states. Across five text-based games, MEMO raises mean win rate from 25.1% to 49.5% for GPT-4o-mini and from 20.9% to 44.3% for Qwen-2.5-7B-Instruct, using $2,000$ self-play games per task. Run-to-run variance also drops, giving more stable rankings across prompt variations. These results suggest that multi-agent LLM game performance and robustness have substantial room for improvement through context optimization. MEMO achieves the largest gains in negotiation and imperfect-information games, while RL remains more effective in perfect-information settings.
- Abstract(参考訳): マルチターン・マルチエージェント LLM ゲームの評価は、しばしばかなりのラン・ツー・ランのばらつきを示す。
ロングホライゾン相互作用では、小さな初期偏差はターン間で結合し、マルチエージェントカップリングによって増幅される。
このバイアスは勝利率を推定し、繰り返し行われるトーナメントのランキングを信頼できないものにする。
挑発的な選択は、異なる効果的なポリシーを作成することによって、さらにこれを悪化させる。
MEMO(Memory-augmented MOdel context Optimization, メモリ拡張型MOdel context optimization, メモリ拡張型MOdel context optimization; メモリ拡張型MOdel context optimization; メモリ拡張型MOdel context optimization; メモリ拡張型MOdel context optimization; メモリ拡張型MOdel context optimization; メモリ拡張MOdel context optimization; MEMO)は、保持と探索を結合することで、推論時間コンテキストを最適化するセルフプレイフレームワークである。
Retentionは、自己プレイの軌跡から構造化された洞察を格納し、後続のプレイでそれらを前もって注入する永続メモリバンクを維持している。
探索はTrueSkillを通じて不確実性を認識したトーナメントスタイルのプロンプト進化を実行し、レアで決定的な状態を再考するために優先順位付けされたリプレイを使用する。
5つのテキストベースのゲームの中で、MEMOはGPT-4o-miniの平均勝利率を25.1%から49.5%に引き上げ、Qwen-2.5-7B-Instructでは20.9%から44.3%に引き上げる。
実行時から実行時までの分散も減少し、迅速なバリエーション間で安定したランク付けが可能になる。
これらの結果から,マルチエージェント LLM ゲームの性能とロバスト性は,文脈最適化による大幅な改善の余地があることが示唆された。
MEMOは交渉や不完全情報ゲームにおいて最大の利益を達成する一方、RLは完全情報設定においてより効果的である。
関連論文リスト
- MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - Enhancing Language Agent Strategic Reasoning through Self-Play in Adversarial Games [60.213483076150844]
本稿では,PLAY-And-Learn,SCO-PALを用いたステップレベルのポリCy最適化手法を提案する。
対戦相手を異なるレベルに設定することで、対戦相手の選択を詳細に分析し、戦略的推論を改善する最も効果的な方法が自己プレーであることを見出した。
我々は6試合でGPT-4に対して54.76%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-10-19T09:03:28Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Auto-Encoding Bayesian Inverse Games [36.06617326128679]
ゲームの性質が不明な逆ゲーム問題を考える。
既存の最大推定手法は、未知のパラメータの点推定のみを提供する。
ベイズ的視点を採り、ゲームパラメータの後方分布を構成する。
この構造化されたVAEは、観測された相互作用のラベルのないデータセットから訓練することができる。
論文 参考訳(メタデータ) (2024-02-14T02:17:37Z) - MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization [12.473095790918347]
マルチエージェント問題に対する最適優先体験再生を定式化する名前を提案する。
結果として生じた政策の後悔を最小限にすることで、現在の政策と明確な最適政策とのギャップを狭めることができる。
論文 参考訳(メタデータ) (2023-02-21T03:11:21Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。