論文の概要: Word Play for Playing Othello (Reverses)
- arxiv url: http://arxiv.org/abs/2207.08766v1
- Date: Mon, 18 Jul 2022 17:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 18:33:27.278350
- Title: Word Play for Playing Othello (Reverses)
- Title(参考訳): オセロを弾くための言葉遊び
- Authors: Samantha E. Miller Noever, David Noever
- Abstract要約: 研究は、より大きな(GPT-3)言語モデルと小さい(GPT-2)言語モデルの両方を適用して、Othello(またはReverses)のゲームのための複雑な戦略を探索する。
言語モデルはチャンピオンシップレベルの戦略を自動的にキャプチャまたはエミュレートする。
微調整されたGPT-2モデルは13-71%の完成率からオセロゲームを生成し、より大きなGPT-3モデルは41%の完成率に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models like OpenAI's Generative Pre-Trained Transformers (GPT-2/3)
capture the long-term correlations needed to generate text in a variety of
domains (such as language translators) and recently in gameplay (chess, Go, and
checkers). The present research applies both the larger (GPT-3) and smaller
(GPT-2) language models to explore the complex strategies for the game of
Othello (or Reverses). Given the game rules for rapid reversals of fortune, the
language model not only represents a candidate predictor of the next move based
on previous game moves but also avoids sparse rewards in gameplay. The language
model automatically captures or emulates championship-level strategies. The
fine-tuned GPT-2 model generates Othello games ranging from 13-71% completion,
while the larger GPT-3 model reaches 41% of a complete game. Like previous work
with chess and Go, these language models offer a novel way to generate
plausible game archives, particularly for comparing opening moves across a
larger sample than humanly possible to explore. A primary contribution of these
models magnifies (by two-fold) the previous record for player archives (120,000
human games over 45 years from 1977-2022), thus supplying the research
community with more diverse and original strategies for sampling with other
reinforcement learning techniques.
- Abstract(参考訳): OpenAIのGenerative Pre-Trained Transformer (GPT-2/3)のような言語モデルは、様々なドメイン(例えば、言語トランスレータ)や最近ゲームプレイ(chs、Go、チェッカー)でテキストを生成するのに必要な長期的相関をキャプチャする。
本研究は,Othello(あるいはReverses)のゲームにおける複雑な戦略を探るために,GPT-3とGPT-2の2つの言語モデルを適用した。
占いの急速な逆転のためのゲームルールを考えると、言語モデルは、以前のゲームの動きに基づいて次の動きの候補予測者を表すだけでなく、ゲームプレイにおけるスパースな報酬も回避する。
言語モデルはチャンピオンシップレベルの戦略を自動的にキャプチャまたはエミュレートする。
微調整されたGPT-2モデルは13-71%の完成率からオセロゲームを生成し、より大きなGPT-3モデルは41%の完成率に達する。
チェスや囲碁を使った以前の研究と同様に、これらの言語モデルは、もっともらしいゲームアーカイブを生成する新しい方法を提供する。
これらのモデルの主な貢献は、以前のプレイヤーアーカイブの記録(1977年から2022年までの45年間に12万の人間ゲーム)を2倍に拡大し、他の強化学習技術を用いてサンプリングするためのより多様なオリジナル戦略を研究コミュニティに提供することである。
関連論文リスト
- Strategic Insights in Human and Large Language Model Tactics at Word Guessing Games [0.0]
2022年の初めには、単純な言い回しゲームが嵐で世界を席巻した。
本稿では,2年以上に渡り発展してきた日常的なゲームプレイヤーの戦略を考察する。
論文 参考訳(メタデータ) (2024-09-17T12:06:05Z) - Instruction-Driven Game Engines on Large Language Models [59.280666591243154]
IDGEプロジェクトは、大規模な言語モデルが自由形式のゲームルールに従うことを可能にすることで、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。
論文 参考訳(メタデータ) (2024-03-30T08:02:16Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Keep CALM and Explore: Language Models for Action Generation in
Text-based Games [27.00685301984832]
本研究では,各ゲーム状態におけるアクション候補のコンパクトなセットを生成するために,文脈行動言語モデル(CALM)を提案する。
我々はCALMと強化学習エージェントを組み合わせることで、生成したアクション候補を再ランクし、ゲーム内報酬を最大化する。
論文 参考訳(メタデータ) (2020-10-06T17:36:29Z) - Navigating Human Language Models with Synthetic Agents [7.99536002595393]
我々は、歴史的チェスゲームのコーパスでGPT-2のバージョンを訓練し、その後、合成エージェントのクラスタをモデルに"起動"する。
その結果, モデルを用いた動きの比率は, 人間のパターンと大きく類似していることが判明した。
論文 参考訳(メタデータ) (2020-08-10T14:39:53Z) - The Chess Transformer: Mastering Play using Generative Language Models [0.0]
この研究は、自然言語トランスフォーマーがより汎用的な戦略的モデリングをサポートできることを実証している。
自然言語スキルの学習に加えて、抽象トランスフォーマーアーキテクチャはチェスボード上で意味のある動きを生成することができる。
我々は、このトランスフォーマーの約束、特に他の戦略ゲームに基づいて、今後の作業が構築されることを期待している。
論文 参考訳(メタデータ) (2020-08-02T18:04:36Z) - The Go Transformer: Natural Language Modeling for Game Play [0.0]
この研究は、Goの古代のゲームにおいて、もっともらしい戦略的な動きを生成するために自然言語モデリングを適用した。
我々は、GPT-2(Generative Pretrained Transformer)をトレーニングし、スマートゲームフォーマットでアーカイブされたGoチャンピオンのスタイルを模倣する。
トレーニングされたモデルは、Goの有効だが以前は見えなかった戦略をさらに生成します。
論文 参考訳(メタデータ) (2020-07-07T14:37:27Z) - Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [109.79957125584252]
変分オートエンコーダ(VAE)は、強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。
本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。
論文 参考訳(メタデータ) (2020-04-05T06:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。