論文の概要: Efficacy of Language Model Self-Play in Non-Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2406.18872v1
- Date: Thu, 27 Jun 2024 03:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:17:37.527989
- Title: Efficacy of Language Model Self-Play in Non-Zero-Sum Games
- Title(参考訳): 非ゼロサムゲームにおける言語モデルセルフプレイの有効性
- Authors: Austen Liao, Nicholas Tomlin, Dan Klein,
- Abstract要約: AlphaGoのようなゲームプレイングエージェントは、自己プレイを通じて超人的なパフォーマンスを実現している。
言語モデルを改善するために,自己演奏のような手法を効果的に活用できるかどうかを実証的に検討する。
言語モデルによる自己表現は,人間との協調や競争において,大きなパフォーマンス向上をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 38.644991461153275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Game-playing agents like AlphaGo have achieved superhuman performance through self-play, which is theoretically guaranteed to yield optimal policies in competitive games. However, most language tasks are partially or fully cooperative, so it is an open question whether techniques like self-play can effectively be used to improve language models. We empirically investigate this question in a negotiation game setting known as Deal or No Deal (DoND). Crucially, the objective in DoND can be modified to produce a fully cooperative game, a strictly competitive one, or anything in between. We finetune language models in self-play over multiple rounds of filtered behavior cloning in DoND for each of these objectives. Contrary to expectations, we find that language model self-play leads to significant performance gains in both cooperation and competition with humans, suggesting that self-play and related techniques have promise despite a lack of theoretical guarantees.
- Abstract(参考訳): AlphaGoのようなゲームプレイングエージェントは、自己プレイを通じて超人的なパフォーマンスを達成している。
しかし、ほとんどの言語タスクは部分的にあるいは完全に協調しているため、セルフプレイのようなテクニックが言語モデルを改善するために効果的に使えるかどうかという疑問が開かれている。
我々はこの問題を、Deal or No Deal (DoND)として知られる交渉ゲームで実証的に調査する。
重要な点として、DoNDの目的は、完全に協調的なゲーム、厳格な競争力のあるゲーム、あるいはその中間にあるものを作り出すために変更することができる。
それぞれの目的に対して,DoNDにおける複数ラウンドのフィルタリング動作クローンに対して,言語モデルを自己演奏で微調整する。
予想とは対照的に,言語モデルによる自己プレイは,人間との協調や競争において大きなパフォーマンス向上をもたらすことが示唆され,理論的な保証が欠如しているにもかかわらず,自己プレイと関連技術が約束されていることが示唆された。
関連論文リスト
- Understanding Players as if They Are Talking to the Game in a Customized Language: A Pilot Study [3.4333699338998693]
本研究は,ゲームイベントシーケンスのモデル化における言語モデル(LM)の適用について検討する。
生イベントデータをテキストシーケンスに変換し、このデータ上でLongformerモデルを事前学習する。
これらの結果から,ゲームデザインやパーソナライズにおける自己監督型LMの可能性を示す。
論文 参考訳(メタデータ) (2024-10-24T09:59:10Z) - Guarantees for Self-Play in Multiplayer Games via Polymatrix
Decomposability [2.2636685010313364]
セルフプレイ(Self-play)は、学習アルゴリズムが自分自身のコピーと対話して学習するマルチエージェントシステムにおける機械学習のテクニックである。
両プレイヤーの定数ゲームでは、ナッシュ均衡に達するセルフプレイが保証され、ポストトレーニング中の対戦相手に対して良好に機能する戦略が作成できることを示す。
本研究は,マルチプレイヤーゲームの構造的特性を初めて同定し,多種多様なセルフプレイアルゴリズムによって生成される戦略の性能保証を実現する。
論文 参考訳(メタデータ) (2023-10-17T18:33:21Z) - Palm: Predicting Actions through Language Models @ Ego4D Long-Term
Action Anticipation Challenge 2023 [100.32802766127776]
Palmは、視覚言語と大規模言語モデルを利用した長期的な行動予測タスクのソリューションである。
入力ビデオから抽出したフレーム記述とアクションラベルに基づいて、将来のアクションを予測する。
論文 参考訳(メタデータ) (2023-06-28T20:33:52Z) - Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as
Conversational Agents [20.202525145391093]
近年の研究では,「言語理解エージェント」の体系的評価手法が提案されている。
制約のあるゲームライクな設定に公開することで、大規模言語モデルを有意義に評価できるだろうか?
概念実証として,現在のチャット最適化LDMがゲームプレイの指示に従うことができる範囲において,5つのインタラクション設定について検討する。
論文 参考訳(メタデータ) (2023-05-22T19:56:10Z) - Improving Language Model Negotiation with Self-Play and In-Context
Learning from AI Feedback [97.54519989641388]
交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。
私たちが考慮している言語モデルのサブセットだけが、AIフィードバックから自己プレイし、取引価格を改善することができます。
論文 参考訳(メタデータ) (2023-05-17T11:55:32Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Keep CALM and Explore: Language Models for Action Generation in
Text-based Games [27.00685301984832]
本研究では,各ゲーム状態におけるアクション候補のコンパクトなセットを生成するために,文脈行動言語モデル(CALM)を提案する。
我々はCALMと強化学習エージェントを組み合わせることで、生成したアクション候補を再ランクし、ゲーム内報酬を最大化する。
論文 参考訳(メタデータ) (2020-10-06T17:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。