論文の概要: Can Language Models Serve as Text-Based World Simulators?
- arxiv url: http://arxiv.org/abs/2406.06485v1
- Date: Mon, 10 Jun 2024 17:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 12:49:35.596289
- Title: Can Language Models Serve as Text-Based World Simulators?
- Title(参考訳): 言語モデルはテキストベースの世界シミュレータとして生き残るか?
- Authors: Ruoyao Wang, Graham Todd, Ziang Xiao, Xingdi Yuan, Marc-Alexandre Côté, Peter Clark, Peter Jansen,
- Abstract要約: 仮想環境は複雑な計画や意思決定タスクのベンチマークにおいて重要な役割を担います。
現在の言語モデル自体が世界シミュレータとして機能し、アクションがどのように異なる世界状態を変えるかを正確に予測できるだろうか?
私たちのゴールは、テキストベースのシミュレーターの文脈でこの質問に答えることです。
- 参考スコア(独自算出の注目度): 36.696443050781134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Virtual environments play a key role in benchmarking advances in complex planning and decision-making tasks but are expensive and complicated to build by hand. Can current language models themselves serve as world simulators, correctly predicting how actions change different world states, thus bypassing the need for extensive manual coding? Our goal is to answer this question in the context of text-based simulators. Our approach is to build and use a new benchmark, called ByteSized32-State-Prediction, containing a dataset of text game state transitions and accompanying game tasks. We use this to directly quantify, for the first time, how well LLMs can serve as text-based world simulators. We test GPT-4 on this dataset and find that, despite its impressive performance, it is still an unreliable world simulator without further innovations. This work thus contributes both new insights into current LLM's capabilities and weaknesses, as well as a novel benchmark to track future progress as new models appear.
- Abstract(参考訳): 仮想環境は複雑な計画や意思決定タスクのベンチマークにおいて重要な役割を担いますが、手作業で構築するには高価で複雑です。
現在の言語モデル自体が世界シミュレータとして機能し、アクションがどのように異なる世界状態を変えるかを正確に予測することで、広範囲な手動コーディングの必要性を回避できるだろうか?
私たちのゴールは、テキストベースのシミュレーターの文脈でこの質問に答えることです。
我々のアプローチはByteSized32-State-Predictionと呼ばれる新しいベンチマークを構築し、使用することであり、テキストゲームの状態遷移と付随するゲームタスクのデータセットを含む。
我々はこれを初めて、LLMがいかにテキストベースの世界シミュレータとして機能するかを直接定量化するために使用します。
我々は、このデータセットでGPT-4をテストし、その優れた性能にもかかわらず、さらなるイノベーションを伴わない信頼性の低い世界シミュレータであることを発見した。
この研究は、現在のLLMの能力と弱点に関する新しい洞察と、新しいモデルが登場するにつれて将来の進歩を追跡するための新しいベンチマークに寄与する。
関連論文リスト
- Learning autonomous driving from aerial imagery [67.06858775696453]
フォトグラムシミュレーターは、生成済みの資産を新しいビューに変換することによって、新しいビューを合成することができる。
我々は、ニューラルネットワーク場(NeRF)を中間表現として使用し、地上車両の視点から新しいビューを合成する。
論文 参考訳(メタデータ) (2024-10-18T05:09:07Z) - Bird's Eye View Based Pretrained World model for Visual Navigation [12.760191524187064]
本稿では,従来の世界モデルにおけるコンポーネントを,シミュレータ内で完全に訓練された堅牢なシステムに融合させる新しいシステムを提案する。
我々のロボットは、複雑なtextitFirst-Person View(FPV)ベースのRGBイメージからBEV表現への変換を最初に学習することでシミュレータでナビゲートすることを学ぶ。
実世界でのテストでは、FPVベースのRGB画像の知覚モデルを用いて、FPVからBEVトランスレータへの埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-28T23:25:19Z) - Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。
我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。
これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文 参考訳(メタデータ) (2023-10-12T11:25:46Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - ScriptWorld: Text Based Environment For Learning Procedural Knowledge [2.0491741153610334]
ScriptWorldは、現実世界の日々の雑用についてエージェントに教えるテキストベースの環境である。
10日間の活動にゲーム環境を提供し,提案環境の詳細な分析を行う。
RLエージェントの事前学習言語モデルから得られた特徴を利用する。
論文 参考訳(メタデータ) (2023-07-08T05:43:03Z) - Infusing Commonsense World Models with Graph Knowledge [89.27044249858332]
オープンワールドテキストアドベンチャーゲームにおける物語生成の設定について検討する。
基礎となるゲーム状態のグラフ表現は、接地グラフ表現と自然言語記述とアクションの両方を消費し出力するモデルを訓練するために使用することができる。
論文 参考訳(メタデータ) (2023-01-13T19:58:27Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。
自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。
トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文 参考訳(メタデータ) (2021-02-26T01:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。