論文の概要: Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay
- arxiv url: http://arxiv.org/abs/2407.11068v5
- Date: Thu, 27 Feb 2025 21:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:39:36.625263
- Title: Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay
- Title(参考訳): Show, Don't Tell: ChildPlayによるテキスト理解以上の大規模言語モデルの評価
- Authors: Gonçalo Hora de Carvalho, Oscar Knap, Robert Pollice,
- Abstract要約: 本研究では,言語問題以外の問題に対する最先端の大規模言語モデルの一般化を評価するためのベンチマークを開発する。
Tic-Tac-Toe、Connect Four、Battleship、Shape Recognition Gameといった単純なゲームを使って、戦略的能力と空間的推論をテストする。
その結果,GPTモデルはいくつかのタスクに対して有意義な応答を提供するが,一般的には性能は良くないことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We developed a benchmark set to assess the generalization of state-of-the-art large language models on problems beyond linguistic tasks and evaluate it on a systematic progression of GPT models (GPT-3.5, GPT-4, GPT-4o, GPT-4o-mini). Using simple games like Tic-Tac-Toe, Connect Four, Battleship, and a Shape Recognition Game, all encoded in ASCII, we test strategic capabilities and spatial reasoning, core abilities any artificial intelligence would need to master for solving problems in chemistry. To probe generalization, we introduce two new games for spatial logic: LEGO Connect Language (LCL) and Guess-the-SMILES (GtS), a operationally simple chemistry benchmark. Our results show that GPT models provide meaningful responses for several tasks but, generally, perform poorly. A systematic performance progression with increased model capabilities (GPT-3.5, GPT-4, GPT-4o) is only observed for 4 out of the 7 benchmark tasks. All models consistently struggle with Battleship, LCL, and GtS. This suggests that while GPT models can emulate conversational proficiency and basic rule comprehension, they have limited generalization with respect to strategy and spatial reasoning. Particularly poor performance is observed for interpreting molecular graphs when encoded in ASCII. The results provided by our open-source benchmark suite (\href{https://github.com/BlueVelvetSackOfGoldPotatoes/child-play}{\texttt{ChildPlay} GitHub Repository}) caution against claims of emergent intelligence in GPT models, which appear more specialized than general.
- Abstract(参考訳): 我々は,言語問題以外の問題に対する最先端の大規模言語モデルの一般化を評価し,GPTモデル(GPT-3.5,GPT-4,GPT-4o,GPT-4o-mini)の体系的進行について評価するベンチマークセットを開発した。
ASCIIでエンコードされたTic-Tac-Toe、Connect Four、Battleship、Shape Recognition Gameといった単純なゲームを使って、あらゆる人工知能が化学の問題を解決するためにマスターするコア能力、戦略的能力と空間的推論をテストする。
一般化を探求するために, LEGO Connect Language (LCL) と Guess-the-SMILES (GtS) の2つの新しい空間論理ゲームを紹介した。
その結果,GPTモデルはいくつかのタスクに対して有意義な応答を提供するが,一般的には性能は良くないことがわかった。
モデル能力の向上(GPT-3.5, GPT-4, GPT-4o)を伴う系統的な性能向上は、7つのベンチマークタスクのうち4つでのみ観察される。
全てのモデルはバトルシップ、LCL、GtSと一貫して戦っている。
このことは、GPTモデルが会話の熟練度や基本ルールの理解をエミュレートできる一方で、戦略や空間的推論に関して限定的な一般化が可能であることを示唆している。
ASCIIでエンコードされた分子グラフの解釈性能は特に低かった。
オープンソースのベンチマークスイート(\href{https://github.com/BlueVelvetSackOfGoldPotatoes/child-play}{\textt{ChildPlay} GitHub Repository})では、GPTモデルにおける創発的インテリジェンス(emergent Intelligence)の主張に対して、一般よりも専門的に警告しています。
関連論文リスト
- Causal World Representation in the GPT Model [4.629721760278161]
GPT(Generative Pre-trained Transformer)モデルは、実世界のゲームにおいて、勝利を意図してテストされる。
GPTモデルは、アテンション機構が高い信頼度で因果構造を符号化するシーケンスのゲーム規則に従う次の動作を生成する傾向がある。
一般に、GPTモデルがゲームルールに従わない動作を生成する場合、因果構造を捕捉できない。
論文 参考訳(メタデータ) (2024-12-10T12:05:03Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。
TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文 参考訳(メタデータ) (2024-06-19T23:47:59Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Gpt-4: A Review on Advancements and Opportunities in Natural Language
Processing [0.0]
Generative Pre-trained Transformer 4 (GPT-4) は、OpenAIが開発したGPTシリーズの第4世代言語モデルである。
GPT-4は、GPT-3よりもモデルサイズが大きく(1兆ドル以上)、多言語能力、文脈理解の改善、推論能力が優れている。
GPT-4の潜在的な応用には、チャットボット、パーソナルアシスタント、言語翻訳、テキスト要約、質問応答などがある。
論文 参考訳(メタデータ) (2023-05-04T22:46:43Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。