論文の概要: Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay
- arxiv url: http://arxiv.org/abs/2407.11068v4
- Date: Thu, 30 Jan 2025 01:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:12.677724
- Title: Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay
- Title(参考訳): Show, Don't Tell: ChildPlayによるテキスト理解以上の大規模言語モデルの評価
- Authors: Gonçalo Hora de Carvalho, Oscar Knap, Robert Pollice,
- Abstract要約: 我々は,言語タスク以外の幅広い問題に対して,最先端の大規模言語モデルの一般化を検証するためのベンチマークを開発する。
Tic-Tac-Toe、Connect Four、Battleshipといったよく知られた単純なゲームを使って、戦略能力と空間的推論をテストする。
その結果、GPTモデルはこれらのゲームでは性能が悪く、失う動きを予測できなかったり、正しくプレイしたり、空間的関係を認識できなかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We develop a systematic benchmark set to test the generalization of state-of-the-art large language models on broader problems beyond linguistic tasks and evaluate it on a systematic progression of GPT models (GPT-3.5, GPT-4, GPT-4o, GPT-4o-mini). Using well-known simple games like Tic-Tac-Toe, Connect Four, and Battleship, all encoded in ASCII, we test their strategic capabilities and spatial reasoning. To probe generalization, we introduce three new games: LEGO Connect Language (LCL) for spatial logic, a shape recognition game, and Guess-the-SMILES (GtS), an advanced spatial logic benchmark in chemistry. Results show that, despite proficiency in standard benchmarks, GPT models perform poorly in these games, failing to anticipate losing moves, play correctly, or recognize spatial relationships. Except for Tic-Tac-Toe and GtS, a systematic progression in gameplay performance as models are formally improved (GPT-3.5, GPT-4, GPT-4o) is not observed. GPT-4 succeeds in shape recognition, but all models consistently struggle with LCL and GtS. This suggests that while GPT models can emulate conversational proficiency and basic rule comprehension, they have limited cognitive flexibility and generalization in strategy and spatial reasoning. Our findings, highlighted with our benchmark suite (ChildPlay GitHub Repository), caution against claims of emergent intelligence in GPT models, which appear more specialized than general.
- Abstract(参考訳): 本稿では,GPTモデル(GPT-3.5, GPT-4, GPT-4o, GPT-4o-mini, GPT-4o-mini, GPT-4o-mini, GPT-4o-mini, GPT-4o-3.5, GPT-3.5, GPT-4o-3.5, GPT-4o-3.5, GPT-4o-3.5, GPT-4o-3.5, GPT-4o-3.5, GPT-4o-3.5, GPT-3.5, GPT-4o-3.5, GPT-4, GPT-4, GPT-4, GPT-4, GPT-4, GPT-4, GPT-4, GPT-4o-mini, GPT-4o-3.5, GPT-3.5, GPT-3.5, GPT-3.5, GPT-4, GPT-4, GPT-4, GPT-4, GPT
ASCIIで符号化されたTic-Tac-Toe、Connect Four、Battleshipといったよく知られた単純なゲームを使って、戦略能力と空間的推論をテストする。
一般化を探求するために,空間論理のためのLEGO Connect Language (LCL) と,化学における高度な空間論理ベンチマークであるGuess-the-SMILES (GtS) の3つの新しいゲームを紹介した。
その結果、標準ベンチマークの習熟度にもかかわらず、GPTモデルはこれらのゲームでは性能が悪く、失う動きを予測できなかったり、正しくプレイしたり、空間的関係を認識できなかった。
Tic-Tac-Toe と GtS を除いて、モデルとしてゲームプレイ性能の体系的な進歩は見られていない(GPT-3.5, GPT-4, GPT-4o)。
GPT-4は形状認識に成功しているが、全てのモデルは常にLCLとGtSと競合する。
このことは、GPTモデルが会話の熟練度と基本的なルール理解をエミュレートできる一方で、認知的柔軟性と戦略および空間的推論の一般化が制限されていることを示唆している。
我々の発見はベンチマークスイート(ChildPlay GitHub Repository)で強調され、GPTモデルにおける創発的なインテリジェンスに関する主張に対する警告でした。
関連論文リスト
- Causal World Representation in the GPT Model [4.629721760278161]
GPT(Generative Pre-trained Transformer)モデルは、実世界のゲームにおいて、勝利を意図してテストされる。
GPTモデルは、アテンション機構が高い信頼度で因果構造を符号化するシーケンスのゲーム規則に従う次の動作を生成する傾向がある。
一般に、GPTモデルがゲームルールに従わない動作を生成する場合、因果構造を捕捉できない。
論文 参考訳(メタデータ) (2024-12-10T12:05:03Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。
TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文 参考訳(メタデータ) (2024-06-19T23:47:59Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Gpt-4: A Review on Advancements and Opportunities in Natural Language
Processing [0.0]
Generative Pre-trained Transformer 4 (GPT-4) は、OpenAIが開発したGPTシリーズの第4世代言語モデルである。
GPT-4は、GPT-3よりもモデルサイズが大きく(1兆ドル以上)、多言語能力、文脈理解の改善、推論能力が優れている。
GPT-4の潜在的な応用には、チャットボット、パーソナルアシスタント、言語翻訳、テキスト要約、質問応答などがある。
論文 参考訳(メタデータ) (2023-05-04T22:46:43Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。