論文の概要: ChessGPT: Bridging Policy Learning and Language Modeling
- arxiv url: http://arxiv.org/abs/2306.09200v2
- Date: Thu, 21 Dec 2023 16:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:58:31.409538
- Title: ChessGPT: Bridging Policy Learning and Language Modeling
- Title(参考訳): ChessGPT:ブリッジング政策学習と言語モデリング
- Authors: Xidong Feng, Yicheng Luo, Ziyan Wang, Hongrui Tang, Mengyue Yang, Kun
Shao, David Mguni, Yali Du, Jun Wang
- Abstract要約: ChessGPTはポリシー学習と言語モデリングのためのGPTモデルである。
チェスに関連する大規模ゲームと言語データセットを構築した。
政策学習と言語モデリングを統合したChessCLIPとChessGPTのモデル例を2つ紹介する。
- 参考スコア(独自算出の注目度): 17.85415939196955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When solving decision-making tasks, humans typically depend on information
from two key sources: (1) Historical policy data, which provides interaction
replay from the environment, and (2) Analytical insights in natural language
form, exposing the invaluable thought process or strategic considerations.
Despite this, the majority of preceding research focuses on only one source:
they either use historical replay exclusively to directly learn policy or value
functions, or engaged in language model training utilizing mere language
corpus. In this paper, we argue that a powerful autonomous agent should cover
both sources. Thus, we propose ChessGPT, a GPT model bridging policy learning
and language modeling by integrating data from these two sources in Chess
games. Specifically, we build a large-scale game and language dataset related
to chess. Leveraging the dataset, we showcase two model examples ChessCLIP and
ChessGPT, integrating policy learning and language modeling. Finally, we
propose a full evaluation framework for evaluating language model's chess
ability. Experimental results validate our model and dataset's effectiveness.
We open source our code, model, and dataset at
https://github.com/waterhorse1/ChessGPT.
- Abstract(参考訳): 意思決定課題の解決には,(1) 環境からのインタラクションを再現する歴史的政策データ,(2) 自然言語形態の分析的洞察, 価値ある思考過程や戦略的考察, の2つの主要な情報源からの情報に依存する。
それにもかかわらず、先行研究の大部分は、政策や価値関数を直接学習するためにのみ履歴リプレイを使用するか、単なる言語コーパスを利用した言語モデルのトレーニングに携わる、という1つのソースのみに焦点を当てている。
本稿では、強力な自律エージェントが両方のソースをカバーするべきであると論じる。
そこで我々は,これら2つの情報源からのデータをチェスゲームに組み込むことで,GPTモデルのブリッジングポリシ学習と言語モデリングを行うChessGPTを提案する。
具体的には,チェスに関連する大規模ゲームと言語データセットを構築する。
データセットを活用することで,政策学習と言語モデリングの統合という2つのモデル例を紹介する。
最後に,言語モデルのチェス能力を評価するための完全評価フレームワークを提案する。
実験結果は,モデルとデータセットの有効性を検証する。
コード、モデル、データセットをhttps://github.com/waterhorse1/ChessGPTでオープンソースにしています。
関連論文リスト
- Explore the Reasoning Capability of LLMs in the Chess Testbed [45.12891789312405]
我々は,注釈付き戦略と戦術を統合することで,チェスにおける大規模言語モデルの推論能力を向上させることを提案する。
我々はLLaMA-3-8Bモデルを微調整し、より優れたチェスの動きを選択するタスクにおいて、最先端の商用言語モデルと比較する。
論文 参考訳(メタデータ) (2024-11-11T01:42:56Z) - Learning to Play Chess from Textbooks (LEAP): a Corpus for Evaluating
Chess Moves based on Sentiment Analysis [4.314956204483074]
本稿では,チェスの遊び方を学ぶための新しい知識源として,チェスの教科書について検討する。
我々はLEAPコーパスを開発した。LEAPコーパスは、構造化された(記法やボード状態を動かす)構造付きおよび非構造化データを備えた、最初の、そして新しい異種データセットである。
感情分析のための各種変圧器ベースラインモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2023-10-31T08:26:02Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing
Prediction of Political Polarity in Multilingual News Headlines [0.0]
対象言語における推論知識を取得するために,翻訳と検索の手法を用いる。
次に、重要な推論を強調するために注意機構を使用します。
我々は、それぞれの政治的極性に注釈を付けた5つのヨーロッパ言語で62.6K以上の多言語ニュースの見出しを提示する。
論文 参考訳(メタデータ) (2022-12-01T06:07:01Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。
自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。
トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文 参考訳(メタデータ) (2021-02-26T01:16:23Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Navigating Human Language Models with Synthetic Agents [7.99536002595393]
我々は、歴史的チェスゲームのコーパスでGPT-2のバージョンを訓練し、その後、合成エージェントのクラスタをモデルに"起動"する。
その結果, モデルを用いた動きの比率は, 人間のパターンと大きく類似していることが判明した。
論文 参考訳(メタデータ) (2020-08-10T14:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。