論文の概要: Reasoning, Memorization, and Fine-Tuning Language Models for Non-Cooperative Games
- arxiv url: http://arxiv.org/abs/2410.14890v1
- Date: Fri, 18 Oct 2024 22:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:58.879901
- Title: Reasoning, Memorization, and Fine-Tuning Language Models for Non-Cooperative Games
- Title(参考訳): 非協調ゲームにおける推論・記憶・微調整言語モデル
- Authors: Yunhao Yang, Leonard Berthellemy, Ufuk Topcu,
- Abstract要約: ゲームにおける学習済み言語モデルの能力を高めるために,思考のツリーとマルチエージェントフレームワークを統合する手法を開発した。
ベンチマークアルゴリズムに対して65%の勝利率を示し、微調整後の10%の改善を加えました。
- 参考スコア(独自算出の注目度): 18.406992961818368
- License:
- Abstract: We develop a method that integrates the tree of thoughts and multi-agent framework to enhance the capability of pre-trained language models in solving complex, unfamiliar games. The method decomposes game-solving into four incremental tasks -- game summarization, area selection, action extraction, and action validation -- each assigned to a specific language-model agent. By constructing a tree of thoughts, the method simulates reasoning paths and allows agents to collaboratively distill game representations and tactics, mitigating the limitations of language models in reasoning and long-term memorization. Additionally, an automated fine-tuning process further optimizes the agents' performance by ranking query-response pairs based on game outcomes, e.g., winning or losing. We apply the method to a non-cooperative game and demonstrate a 65 percent winning rate against benchmark algorithms, with an additional 10 percent improvement after fine-tuning. In contrast to existing deep learning algorithms for game solving that require millions of training samples, the proposed method consumes approximately 1000 training samples, highlighting its efficiency and scalability.
- Abstract(参考訳): 本研究では,思考のツリーとマルチエージェント・フレームワークを統合し,複雑な不慣れなゲームにおける事前学習言語モデルの能力を高める手法を開発した。
この方法は、ゲーム解決を4つの段階的なタスク – ゲーム要約、エリア選択、アクション抽出、アクションバリデーション – に分解し、それぞれ特定の言語モデルエージェントに割り当てる。
思考のツリーを構築することにより、推論経路をシミュレートし、エージェントがゲーム表現と戦術を共同で蒸留し、推論と長期記憶における言語モデルの制限を緩和する。
さらに、自動微調整処理により、ゲーム結果、例えば、勝敗に基づいてクエリ応答対をランク付けすることで、エージェントのパフォーマンスをさらに最適化する。
本手法を非協調ゲームに適用し,ベンチマークアルゴリズムに対して65%の勝利率を示す。
数百万のトレーニングサンプルを必要とするゲーム問題解決のための既存のディープラーニングアルゴリズムとは対照的に,提案手法では約1000のトレーニングサンプルを消費し,その効率性とスケーラビリティを強調している。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - Hint assisted reinforcement learning: an application in radio astronomy [2.4366811507669115]
モデル構築の複雑さを緩和する強化学習プロセスの補助として,環境が生み出すヒントを利用することを提案する。
いくつかの環境において, モデルフリー手法と比較して, ヒントを用いることで, サンプル効率が向上することを示す。
論文 参考訳(メタデータ) (2023-01-10T12:24:13Z) - Batch Active Learning from the Perspective of Sparse Approximation [12.51958241746014]
アクティブな学習は、機械学習エージェントと人間のアノテーションとのインタラクションを活用することで、効率的なモデルトレーニングを可能にする。
スパース近似の観点からバッチアクティブラーニングを定式化する新しいフレームワークを提案し,提案する。
我々のアクティブラーニング手法は、ラベルのないデータプールから、対応するトレーニング損失関数が、そのフルデータプールに近似するように、情報的サブセットを見つけることを目的としている。
論文 参考訳(メタデータ) (2022-11-01T03:20:28Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Method for making multi-attribute decisions in wargames by combining
intuitionistic fuzzy numbers with reinforcement learning [18.04026817707759]
本稿では,多属性管理と強化学習を組み合わせたアルゴリズムを提案する。
エージェントの特定のルールに対する勝利率の低さと、インテリジェントなウォーゲームトレーニング中にすぐに収束できない問題を解決します。
この分野では、知的ウォーガミングのためのアルゴリズム設計が多属性意思決定と強化学習を組み合わせたのは初めてである。
論文 参考訳(メタデータ) (2021-09-06T10:45:52Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Algorithms in Multi-Agent Systems: A Holistic Perspective from
Reinforcement Learning and Game Theory [2.5147566619221515]
近年では深い強化学習が顕著な成果を上げている。
最近の研究は、シングルエージェントのシナリオを越えて学習を検討し、マルチエージェントのシナリオを検討しています。
従来のゲーム理論アルゴリズムは、現代的なアルゴリズムと組み合わせた明るいアプリケーションの約束を示し、計算能力を高める。
論文 参考訳(メタデータ) (2020-01-17T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。