論文の概要: Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay
- arxiv url: http://arxiv.org/abs/2407.11068v2
- Date: Wed, 17 Jul 2024 13:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 12:07:55.386308
- Title: Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay
- Title(参考訳): Show, Don't Tell: ChildPlayによるテキスト理解以上の大規模言語モデルの評価
- Authors: Gonçalo Hora de Carvalho, Robert Pollice, Oscar Knap,
- Abstract要約: 私たちは戦略的思考と意思決定を評価するために、Tic-Tac-Toe、Connect Four、Battleshipといったゲームを使用しています。
標準ベンチマークに習熟しているにもかかわらず、GPT-3.5とGPT-4のプレイ能力と、事前トレーニングなしで完全に観察可能なゲームについて推論する能力は、ごくわずかである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the hypothesis that LLMs, such as GPT-3.5 and GPT-4, possess broader cognitive functions, particularly in non-linguistic domains. Our approach extends beyond standard linguistic benchmarks by incorporating games like Tic-Tac-Toe, Connect Four, and Battleship, encoded via ASCII, to assess strategic thinking and decision-making. To evaluate the models' ability to generalize beyond their training data, we introduce two additional games. The first game, LEGO Connect Language (LCL), tests the models' capacity to understand spatial logic and follow assembly instructions. The second game, the game of shapes, challenges the models to identify shapes represented by 1s within a matrix of zeros, further testing their spatial reasoning skills. This "show, don't tell" strategy uses games instead of simply querying the models. Our results show that despite their proficiency on standard benchmarks, GPT-3.5 and GPT-4's abilities to play and reason about fully observable games without pre-training is mediocre. Both models fail to anticipate losing moves in Tic-Tac-Toe and Connect Four, and they are unable to play Battleship correctly. While GPT-4 shows some success in the game of shapes, both models fail at the assembly tasks presented in the LCL game. These results suggest that while GPT models can emulate conversational proficiency and basic rule comprehension, their performance in strategic gameplay and spatial reasoning tasks is very limited. Importantly, this reveals a blind spot in current LLM benchmarks that we highlight with our gameplay benchmark suite ChildPlay (https://github.com/child-play-neurips/child-play). Our findings provide a cautionary tale about claims of emergent intelligence and reasoning capabilities of LLMs that are roughly the size of GPT-3.5 and GPT-4.
- Abstract(参考訳): GPT-3.5 や GPT-4 のような LLM は、特に非言語領域において、より広い認知機能を持つという仮説を探求する。
我々のアプローチは、戦略的思考と意思決定を評価するために、ASCIIでエンコードされたTic-Tac-Toe、Connect Four、Battleshipといったゲームを統合することで、標準的な言語ベンチマークを超えて拡張されます。
モデルがトレーニングデータを超えて一般化できる能力を評価するために,さらに2つのゲームを導入する。
最初のゲームであるLEGO Connect Language (LCL)は、空間論理を理解してアセンブリ命令に従うためにモデルの能力をテストする。
第2のゲーム、形状のゲームは、ゼロの行列内で1sで表される形状を識別するためにモデルに挑戦し、さらに空間推論のスキルをテストする。
この"Show, don't tell"戦略は、単にモデルに問い合わせるのではなく、ゲームを使用する。
その結果,GPT-3.5 と GPT-4 のプレイ能力は標準ベンチマークに習熟しているにもかかわらず,事前学習をせずに完全に観察可能なゲームについて推論できることが示唆された。
どちらのモデルも、Tic-Tac-ToeとConnect Fourでの敗戦を予測できず、バトルシップを正しくプレイすることができない。
GPT-4は形状のゲームである程度成功したが、両方のモデルはLCLゲームで提示された組立タスクで失敗する。
これらの結果は,GPTモデルが会話の熟練度や基本ルールの理解をエミュレートできる一方で,戦略ゲームプレイや空間推論タスクにおける性能は極めて限定的であることを示唆している。
重要なことに、これは現在のLLMベンチマークの盲点であり、ゲームプレイベンチマークスイートであるChildPlay(https://github.com/child-play-neurips/child-play)で強調します。
本研究は, GPT-3.5 と GPT-4 とほぼ同じ大きさの LLM の創発的知能の主張と推論能力に関する注意深い物語を提供する。
関連論文リスト
- Causal World Representation in the GPT Model [4.629721760278161]
GPT(Generative Pre-trained Transformer)モデルは、実世界のゲームにおいて、勝利を意図してテストされる。
GPTモデルは、アテンション機構が高い信頼度で因果構造を符号化するシーケンスのゲーム規則に従う次の動作を生成する傾向がある。
一般に、GPTモデルがゲームルールに従わない動作を生成する場合、因果構造を捕捉できない。
論文 参考訳(メタデータ) (2024-12-10T12:05:03Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。
TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文 参考訳(メタデータ) (2024-06-19T23:47:59Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Gpt-4: A Review on Advancements and Opportunities in Natural Language
Processing [0.0]
Generative Pre-trained Transformer 4 (GPT-4) は、OpenAIが開発したGPTシリーズの第4世代言語モデルである。
GPT-4は、GPT-3よりもモデルサイズが大きく(1兆ドル以上)、多言語能力、文脈理解の改善、推論能力が優れている。
GPT-4の潜在的な応用には、チャットボット、パーソナルアシスタント、言語翻訳、テキスト要約、質問応答などがある。
論文 参考訳(メタデータ) (2023-05-04T22:46:43Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。