論文の概要: ByteSized32: A Corpus and Challenge Task for Generating Task-Specific
World Models Expressed as Text Games
- arxiv url: http://arxiv.org/abs/2305.14879v2
- Date: Mon, 23 Oct 2023 18:10:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:46:17.192168
- Title: ByteSized32: A Corpus and Challenge Task for Generating Task-Specific
World Models Expressed as Text Games
- Title(参考訳): bytesize32: テキストゲームとして表現されるタスク固有の世界モデルを生成するコーパスとチャレンジタスク
- Authors: Ruoyao Wang, Graham Todd, Eric Yuan, Ziang Xiao, Marc-Alexandre
C\^ot\'e, Peter Jansen
- Abstract要約: 私たちはこれを,数百行のPythonコードで表現されたテキストゲームを生成するタスクとして運用しています。
我々は、GPT-4がこれらのゲームをシングルショット・イン・コンテクスト学習のテンプレートとして利用できることを実証的に実証した。
我々は,ゲーム忠実度,技術的妥当性,タスク仕様の遵守,勝利性を評価するための一連の自動メトリクスを紹介した。
- 参考スコア(独自算出の注目度): 12.160149133948186
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we investigate the capacity of language models to generate
explicit, interpretable, and interactive world models of scientific and
common-sense reasoning tasks. We operationalize this as a task of generating
text games, expressed as hundreds of lines of Python code. To facilitate this
task, we introduce ByteSized32 (Code: github.com/cognitiveailab/BYTESIZED32), a
corpus of 32 reasoning-focused text games totaling 20k lines of Python code. We
empirically demonstrate that GPT-4 can use these games as templates for
single-shot in-context learning, successfully producing runnable games on
unseen topics in 28% of cases. When allowed to self-reflect on program errors,
game runnability substantially increases to 57%. While evaluating simulation
fidelity is labor-intensive, we introduce a suite of automated metrics to
assess game fidelity, technical validity, adherence to task specifications, and
winnability, showing a high degree of agreement with expert human ratings. We
pose this as a challenge task to spur further development at the juncture of
world modeling and code generation.
- Abstract(参考訳): 本研究では,科学・常識推論タスクの明示的,解釈可能,対話的世界モデルを生成するための言語モデルの能力について検討する。
私たちはこれを、数百行のpythonコードで表現されたテキストゲームを生成するタスクとして運用します。
この作業を容易にするため、我々は、32の推論中心のテキストゲームであるByteSized32(コード:github.com/cognitiveailab/BYTESIZED32)を紹介した。
28%のケースで、GPT-4は、これらのゲームをシングルショットインコンテキスト学習のテンプレートとして使用できることを実証的に実証した。
プログラムエラーに対する自己認識が許されると、ゲームランナビリティは57%に向上する。
シミュレーション忠実度の評価は労働集約的であるが,ゲーム忠実度,技術的妥当性,タスク仕様の遵守,勝手性を評価するための一連の自動メトリクスを導入し,専門家による評価と高い一致を示した。
我々はこれを、世界モデリングとコード生成の分岐点において、さらなる開発を促進するための課題とする。
関連論文リスト
- ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery [23.773528748933934]
44の査読論文から4つの分野の102の課題を抽出し,9つの課題の専門家による検証を行った。
我々は、各タスクのターゲット出力を、自己完結型のPythonプログラムファイルに統一する。
データ汚染の懸念を軽減するための2つの効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:33:50Z) - Instruction-Driven Game Engines on Large Language Models [59.280666591243154]
IDGEプロジェクトは、大規模な言語モデルが自由形式のゲームルールに従うことを可能にすることで、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。
論文 参考訳(メタデータ) (2024-03-30T08:02:16Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Can Large Language Models Play Text Games Well? Current State-of-the-Art
and Open Questions [22.669941641551823]
ChatGPT や GPT-4 のような大規模言語モデル (LLM) は、最近、人間のユーザと通信する顕著な能力を示した。
我々は,ゲームの世界と対話することで,プレイヤが環境を理解し,状況に対処しなければならないような,テキストゲームをプレイする能力について調査する。
実験の結果,ChatGPTは既存のシステムと比較して競争力があるものの,知能のレベルは低いことがわかった。
論文 参考訳(メタデータ) (2023-04-06T05:01:28Z) - GPTScore: Evaluate as You Desire [40.111346987131974]
本稿では,生成事前学習モデルから創発的能力(ゼロショット命令など)を利用して生成したテキストをスコアする新しい評価フレームワークGPTScoreを提案する。
4つのテキスト生成タスク、22の評価側面、およびそれに対応する37のデータセットに関する実験結果から、GPTScoreは、自然言語命令だけでテキストに対して評価したいことを効果的に実現できることを示した。
論文 参考訳(メタデータ) (2023-02-08T16:17:29Z) - Infusing Commonsense World Models with Graph Knowledge [89.27044249858332]
オープンワールドテキストアドベンチャーゲームにおける物語生成の設定について検討する。
基礎となるゲーム状態のグラフ表現は、接地グラフ表現と自然言語記述とアクションの両方を消費し出力するモデルを訓練するために使用することができる。
論文 参考訳(メタデータ) (2023-01-13T19:58:27Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。