論文の概要: Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay
- arxiv url: http://arxiv.org/abs/2407.11068v2
- Date: Wed, 17 Jul 2024 13:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 12:07:55.386308
- Title: Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay
- Title(参考訳): Show, Don't Tell: ChildPlayによるテキスト理解以上の大規模言語モデルの評価
- Authors: Gonçalo Hora de Carvalho, Robert Pollice, Oscar Knap,
- Abstract要約: 私たちは戦略的思考と意思決定を評価するために、Tic-Tac-Toe、Connect Four、Battleshipといったゲームを使用しています。
標準ベンチマークに習熟しているにもかかわらず、GPT-3.5とGPT-4のプレイ能力と、事前トレーニングなしで完全に観察可能なゲームについて推論する能力は、ごくわずかである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the hypothesis that LLMs, such as GPT-3.5 and GPT-4, possess broader cognitive functions, particularly in non-linguistic domains. Our approach extends beyond standard linguistic benchmarks by incorporating games like Tic-Tac-Toe, Connect Four, and Battleship, encoded via ASCII, to assess strategic thinking and decision-making. To evaluate the models' ability to generalize beyond their training data, we introduce two additional games. The first game, LEGO Connect Language (LCL), tests the models' capacity to understand spatial logic and follow assembly instructions. The second game, the game of shapes, challenges the models to identify shapes represented by 1s within a matrix of zeros, further testing their spatial reasoning skills. This "show, don't tell" strategy uses games instead of simply querying the models. Our results show that despite their proficiency on standard benchmarks, GPT-3.5 and GPT-4's abilities to play and reason about fully observable games without pre-training is mediocre. Both models fail to anticipate losing moves in Tic-Tac-Toe and Connect Four, and they are unable to play Battleship correctly. While GPT-4 shows some success in the game of shapes, both models fail at the assembly tasks presented in the LCL game. These results suggest that while GPT models can emulate conversational proficiency and basic rule comprehension, their performance in strategic gameplay and spatial reasoning tasks is very limited. Importantly, this reveals a blind spot in current LLM benchmarks that we highlight with our gameplay benchmark suite ChildPlay (https://github.com/child-play-neurips/child-play). Our findings provide a cautionary tale about claims of emergent intelligence and reasoning capabilities of LLMs that are roughly the size of GPT-3.5 and GPT-4.
- Abstract(参考訳): GPT-3.5 や GPT-4 のような LLM は、特に非言語領域において、より広い認知機能を持つという仮説を探求する。
我々のアプローチは、戦略的思考と意思決定を評価するために、ASCIIでエンコードされたTic-Tac-Toe、Connect Four、Battleshipといったゲームを統合することで、標準的な言語ベンチマークを超えて拡張されます。
モデルがトレーニングデータを超えて一般化できる能力を評価するために,さらに2つのゲームを導入する。
最初のゲームであるLEGO Connect Language (LCL)は、空間論理を理解してアセンブリ命令に従うためにモデルの能力をテストする。
第2のゲーム、形状のゲームは、ゼロの行列内で1sで表される形状を識別するためにモデルに挑戦し、さらに空間推論のスキルをテストする。
この"Show, don't tell"戦略は、単にモデルに問い合わせるのではなく、ゲームを使用する。
その結果,GPT-3.5 と GPT-4 のプレイ能力は標準ベンチマークに習熟しているにもかかわらず,事前学習をせずに完全に観察可能なゲームについて推論できることが示唆された。
どちらのモデルも、Tic-Tac-ToeとConnect Fourでの敗戦を予測できず、バトルシップを正しくプレイすることができない。
GPT-4は形状のゲームである程度成功したが、両方のモデルはLCLゲームで提示された組立タスクで失敗する。
これらの結果は,GPTモデルが会話の熟練度や基本ルールの理解をエミュレートできる一方で,戦略ゲームプレイや空間推論タスクにおける性能は極めて限定的であることを示唆している。
重要なことに、これは現在のLLMベンチマークの盲点であり、ゲームプレイベンチマークスイートであるChildPlay(https://github.com/child-play-neurips/child-play)で強調します。
本研究は, GPT-3.5 と GPT-4 とほぼ同じ大きさの LLM の創発的知能の主張と推論能力に関する注意深い物語を提供する。
関連論文リスト
- Evaluating Large Language Models with Grid-Based Game Competitions: An Extensible LLM Benchmark and Leaderboard [0.0]
我々は,Tic-Tac-Toe,Connect Four,Gomokuなどのグリッドベースのゲームを通じて,大規模言語モデル(LLM)の新たなベンチマークを導入する。
GitHubで利用可能なオープンソースのゲームシミュレーションコードにより、LSMは、詳細なデータファイルと競合し、生成することができる。
本稿では,Orthropic の Claude 3.5 Sonnet と Claude 3 Sonnet,Google の Gemini 1.5 Pro と Gemini Flash,OpenAI の GPT-4 Turbo と GPT-4o,Meta の Llama3-70B などの主要な LLM のゲーム結果を紹介する。
論文 参考訳(メタデータ) (2024-07-10T16:14:34Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
本研究では,ゲーム理論のレンズによる大規模言語モデルの意思決定能力について検討する。
2人以上のエージェントが同時に参加するゲームに特化しています。
我々は,8つの古典的マルチエージェントゲームを含むGAMA-Benchというフレームワークを紹介した。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Will GPT-4 Run DOOM? [0.0]
GPT-4の推論と計画能力は1993年のファーストパーソンシューティングゲーム『Doom』にまで拡張されている。
GPT-4は、ドアを操作し、敵と対戦し、パスを行うことができる。
論文 参考訳(メタデータ) (2024-03-08T17:30:41Z) - Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling [80.64715784334936]
ボードゲーム「バトルシップ」に基づく古典的根拠付き質問応答課題におけるトレードオフについて検討する。
我々のモデルは,大規模言語モデル(LLM)を用いて自然言語の質問を生成し,それらを記号型プログラムに変換し,期待される情報取得を評価する。
驚くほど控えめなリソース予算で、このシンプルなモンテカルロ最適化戦略は、人間のパフォーマンスを反映する有意義な質問をもたらす。
論文 参考訳(メタデータ) (2024-02-29T18:58:15Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - How FaR Are Large Language Models From Agents with Theory-of-Mind? [69.41586417697732]
大規模言語モデル(LLM)に対する新たな評価パラダイムを提案する。
T4Dは、他者の精神状態に関する推論を社会的シナリオにおける行動に結びつけるモデルを必要とする。
ゼロショットプロンプトフレームワークであるフォアシー・アンド・リフレクション(FaR)を導入し,LCMが今後の課題を予測できるように推論構造を提供する。
論文 参考訳(メタデータ) (2023-10-04T06:47:58Z) - Strategic Behavior of Large Language Models: Game Structure vs.
Contextual Framing [0.0]
本稿では,GPT-3.5,GPT-4,LLaMa-2の3つの大規模言語モデル(LLM)の戦略的意思決定能力について検討する。
4つの標準的な2プレイヤーゲームを利用して、これらのモデルがどのように社会的ジレンマをナビゲートするかを探索する。
論文 参考訳(メタデータ) (2023-09-12T00:54:15Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Learning Chess With Language Models and Transformers [0.0]
ボードゲームとその位置をテキストベースの表記で表現することで、NLPアプリケーションが可能となる。
BERTモデルは、まず単純なNimゲームに、数ショットの学習アーキテクチャのセットアップでノイズの存在下でのパフォーマンスを分析する。
モデルはチェスゲームのルールを実質的に学習し、カテゴリーAの格付けレベルでストックフィッシュと対戦して生き残ることができる。
論文 参考訳(メタデータ) (2022-09-24T01:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。