論文の概要: Efficacy of Language Model Self-Play in Non-Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2406.18872v1
- Date: Thu, 27 Jun 2024 03:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:17:37.527989
- Title: Efficacy of Language Model Self-Play in Non-Zero-Sum Games
- Title(参考訳): 非ゼロサムゲームにおける言語モデルセルフプレイの有効性
- Authors: Austen Liao, Nicholas Tomlin, Dan Klein,
- Abstract要約: AlphaGoのようなゲームプレイングエージェントは、自己プレイを通じて超人的なパフォーマンスを実現している。
言語モデルを改善するために,自己演奏のような手法を効果的に活用できるかどうかを実証的に検討する。
言語モデルによる自己表現は,人間との協調や競争において,大きなパフォーマンス向上をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 38.644991461153275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Game-playing agents like AlphaGo have achieved superhuman performance through self-play, which is theoretically guaranteed to yield optimal policies in competitive games. However, most language tasks are partially or fully cooperative, so it is an open question whether techniques like self-play can effectively be used to improve language models. We empirically investigate this question in a negotiation game setting known as Deal or No Deal (DoND). Crucially, the objective in DoND can be modified to produce a fully cooperative game, a strictly competitive one, or anything in between. We finetune language models in self-play over multiple rounds of filtered behavior cloning in DoND for each of these objectives. Contrary to expectations, we find that language model self-play leads to significant performance gains in both cooperation and competition with humans, suggesting that self-play and related techniques have promise despite a lack of theoretical guarantees.
- Abstract(参考訳): AlphaGoのようなゲームプレイングエージェントは、自己プレイを通じて超人的なパフォーマンスを達成している。
しかし、ほとんどの言語タスクは部分的にあるいは完全に協調しているため、セルフプレイのようなテクニックが言語モデルを改善するために効果的に使えるかどうかという疑問が開かれている。
我々はこの問題を、Deal or No Deal (DoND)として知られる交渉ゲームで実証的に調査する。
重要な点として、DoNDの目的は、完全に協調的なゲーム、厳格な競争力のあるゲーム、あるいはその中間にあるものを作り出すために変更することができる。
それぞれの目的に対して,DoNDにおける複数ラウンドのフィルタリング動作クローンに対して,言語モデルを自己演奏で微調整する。
予想とは対照的に,言語モデルによる自己プレイは,人間との協調や競争において大きなパフォーマンス向上をもたらすことが示唆され,理論的な保証が欠如しているにもかかわらず,自己プレイと関連技術が約束されていることが示唆された。
関連論文リスト
- Multi-agent KTO: Reinforcing Strategic Interactions of Large Language Model in Language Game [32.791648070823776]
Werewolfは、言語理解をテストするソーシャル推論ゲームである。
マルチエージェントKahneman & Tversky's Optimization (MaKTO) を開発した。
MaKTOは様々なモデルの平均勝利率を61%達成している。
論文 参考訳(メタデータ) (2025-01-24T04:09:03Z) - Understanding Players as if They Are Talking to the Game in a Customized Language: A Pilot Study [3.4333699338998693]
本研究は,ゲームイベントシーケンスのモデル化における言語モデル(LM)の適用について検討する。
生イベントデータをテキストシーケンスに変換し、このデータ上でLongformerモデルを事前学習する。
これらの結果から,ゲームデザインやパーソナライズにおける自己監督型LMの可能性を示す。
論文 参考訳(メタデータ) (2024-10-24T09:59:10Z) - Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Improving Language Model Negotiation with Self-Play and In-Context
Learning from AI Feedback [97.54519989641388]
交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。
私たちが考慮している言語モデルのサブセットだけが、AIフィードバックから自己プレイし、取引価格を改善することができます。
論文 参考訳(メタデータ) (2023-05-17T11:55:32Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - The Interplay of Task Success and Dialogue Quality: An in-depth
Evaluation in Task-Oriented Visual Dialogues [6.02280861819024]
一般的なエンドツーエンドアプローチでは、この選択はモデルが言語的に豊かな対話を生成するための学習を妨げることを示しています。
GuessWhatでは、トレーニングセットで頻繁に発生しない単語を接地、エンコード、デコードすることを学ぶと、モデルが精度を高めることができることを示しています。
論文 参考訳(メタデータ) (2021-03-20T10:13:30Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Keep CALM and Explore: Language Models for Action Generation in
Text-based Games [27.00685301984832]
本研究では,各ゲーム状態におけるアクション候補のコンパクトなセットを生成するために,文脈行動言語モデル(CALM)を提案する。
我々はCALMと強化学習エージェントを組み合わせることで、生成したアクション候補を再ランクし、ゲーム内報酬を最大化する。
論文 参考訳(メタデータ) (2020-10-06T17:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。