論文の概要: Will GPT-4 Run DOOM?
- arxiv url: http://arxiv.org/abs/2403.05468v1
- Date: Fri, 8 Mar 2024 17:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 12:54:43.180848
- Title: Will GPT-4 Run DOOM?
- Title(参考訳): GPT-4はDOOMを走らせるか?
- Authors: Adrian de Wynter
- Abstract要約: GPT-4の推論と計画能力は1993年のファーストパーソンシューティングゲーム『Doom』にまで拡張されている。
GPT-4は、ドアを操作し、敵と対戦し、パスを行うことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We show that GPT-4's reasoning and planning capabilities extend to the 1993
first-person shooter Doom. This large language model (LLM) is able to run and
play the game with only a few instructions, plus a textual
description--generated by the model itself from screenshots--about the state of
the game being observed. We find that GPT-4 can play the game to a passable
degree: it is able to manipulate doors, combat enemies, and perform pathing.
More complex prompting strategies involving multiple model calls provide better
results. While further work is required to enable the LLM to play the game as
well as its classical, reinforcement learning-based counterparts, we note that
GPT-4 required no training, leaning instead on its own reasoning and
observational capabilities. We hope our work pushes the boundaries on
intelligent, LLM-based agents in video games. We conclude by discussing the
ethical implications of our work.
- Abstract(参考訳): GPT-4の推論と計画能力は1993年のシューティングゲーム『Doom』にも及んでいる。
この大きな言語モデル(LLM)は、ほんの数命令でゲームを実行してプレイすることができ、また、ゲームが観察されている状態に関するスクリーンショットからモデル自体が生成したテキスト記述も可能である。
GPT-4は、ドアを操作し、敵と対戦し、パスを行うことができる。
複数のモデル呼び出しを含むより複雑なプロンプト戦略は、より良い結果をもたらす。
LLMが古典的な強化学習ベースでプレイできるようにするためには、さらなる作業が必要であるが、GPT-4はトレーニングを必要とせず、独自の推論と観察能力に頼っている。
私たちの研究が、ビデオゲームにおける知的LLMベースのエージェントの境界を押し進めることを願っています。
私たちは仕事の倫理的意味を議論することで締めくくります。
関連論文リスト
- See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay [0.0]
私たちは戦略的思考と意思決定を評価するために、Tic-Tac-Toe、Connect Four、Battleshipといったゲームを使用しています。
標準ベンチマークに習熟しているにもかかわらず、GPT-3.5とGPT-4のプレイ能力と、事前トレーニングなしで完全に観察可能なゲームについて推論する能力は、ごくわずかである。
論文 参考訳(メタデータ) (2024-07-12T14:17:26Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。
T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。
ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文 参考訳(メタデータ) (2023-10-04T06:47:58Z) - Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT-4 [37.64921394844022]
GPT-4は、大規模受動的データに基づいて訓練された最近の大規模言語モデル(LLM)のブレークスルーであり、その知識検索と推論能力で有名である。
本稿では,不完全な情報ゲームに対するGPT-4の学習知識の適用性について述べる。
本稿では,不完全な情報ゲームにおけるGPT-4の能力を活用する革新的なエージェントであるSuspicion-Agentを紹介する。
論文 参考訳(メタデータ) (2023-09-29T14:30:03Z) - Strategic Behavior of Large Language Models: Game Structure vs.
Contextual Framing [0.0]
本稿では,GPT-3.5,GPT-4,LLaMa-2の3つの大規模言語モデル(LLM)の戦略的意思決定能力について検討する。
4つの標準的な2プレイヤーゲームを利用して、これらのモデルがどのように社会的ジレンマをナビゲートするかを探索する。
論文 参考訳(メタデータ) (2023-09-12T00:54:15Z) - Playing repeated games with Large Language Models [20.63964279913456]
行動ゲーム理論を用いて,大規模言語モデルの協調行動と協調行動を研究する。
以上の結果から, LLMは一般にこのようなタスクでよく機能し, 持続的な動作シグネチャも発見できることがわかった。
これらの結果はLLMの社会的行動に対する理解を深め、マシンの行動ゲーム理論の道を開いた。
論文 参考訳(メタデータ) (2023-05-26T12:17:59Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。