論文の概要: Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game
- arxiv url: http://arxiv.org/abs/2406.11012v7
- Date: Mon, 14 Oct 2024 03:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:51.228073
- Title: Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game
- Title(参考訳): ドットの接続:New York Times Connections Word Gameを用いたLLMの抽象推論能力の評価
- Authors: Prisha Samadarshi, Mariam Mustafa, Anushka Kulkarni, Raven Rothkopf, Tuhin Chakrabarty, Smaranda Muresan,
- Abstract要約: 我々は,最先端の大規模言語モデル(LLM)の性能を,専門家や初心者に対して評価する。
この結果から,最高のLLMであるClaude 3.5 Sonnetでもゲーム全体の18%しか解けないことがわかった。
本研究では,コネクティクスゲームにおける単語のクラスタ化と分類に要する知識の種類を分類する。
- 参考スコア(独自算出の注目度): 20.64536059771047
- License:
- Abstract: The New York Times Connections game has emerged as a popular and challenging pursuit for word puzzle enthusiasts. We collect 438 Connections games to evaluate the performance of state-of-the-art large language models (LLMs) against expert and novice human players. Our results show that even the best performing LLM, Claude 3.5 Sonnet, which has otherwise shown impressive reasoning abilities on a wide variety of benchmarks, can only fully solve 18% of the games. Novice and expert players perform better than Claude 3.5 Sonnet, with expert human players significantly outperforming it. We create a taxonomy of the knowledge types required to successfully cluster and categorize words in the Connections game. We find that while LLMs perform relatively well on categorizing words based on semantic relations they struggle with other types of knowledge such as Encyclopedic Knowledge, Multiword Expressions or knowledge that combines both Word Form and Meaning. Our results establish the New York Times Connections game as a challenging benchmark for evaluating abstract reasoning capabilities in AI systems.
- Abstract(参考訳): New York Times Connectionsゲームは、ワードパズル愛好家のための人気で挑戦的な追跡ゲームとして登場した。
我々は、438のConnectionsゲームを収集し、最先端の大規模言語モデル(LLM)の性能を専門家や初心者の人間プレイヤーに対して評価する。
この結果から,最も優れたLLMであるClaude 3.5 Sonnetでさえ,様々なベンチマークで優れた推論能力を示しており,ゲーム全体の18%しか解決できないことがわかった。
初心者や熟練したプレイヤーはクロード3.5ソンネットより優れており、熟練した人間のプレイヤーはそれよりかなり優れています。
本研究では,コネクティクスゲームにおける単語のクラスタ化と分類に要する知識の種類を分類する。
LLMは意味的関係に基づく単語の分類において比較的よく機能するが、百科事典的知識、多語表現、単語形式と意味の両方を組み合わせた知識など、他の種類の知識と競合する。
我々の結果は、AIシステムにおける抽象的推論能力を評価するための挑戦的なベンチマークとして、New York Times Connectionsゲームを確立しました。
関連論文リスト
- Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。
効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。
分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-20T08:36:58Z) - Codenames as a Benchmark for Large Language Models [2.1028463367241033]
一般的な単語ベースのボードゲームであるCodenamesを,大規模言語モデルの推論能力を評価するための適切なベンチマークとして使用しています。
我々は,GPT-4o,Gemini 1.5,Claude 3.5 Sonnet,Llama 3.1など,最先端のLLMの能力を評価する。
以上の結果から, ゲームプレイ中に異なるモデルが出現し, 特定の役割に優れることが示唆された。
論文 参考訳(メタデータ) (2024-12-16T01:59:03Z) - NYT-Connections: A Deceptively Simple Text Classification Task that Stumps System-1 Thinkers [5.397565689903148]
我々はNew York Times Connectionsゲームから派生した358の簡単な単語分類パズルのコレクションであるNYT-Connectionsを紹介する。
このベンチマークは、素早い直感的な"システム1"思考をペナルティ化し、基本的な推論スキルを分離するように設計されている。
論文 参考訳(メタデータ) (2024-12-02T15:41:47Z) - Making New Connections: LLMs as Puzzle Generators for The New York Times' Connections Word Game [6.136654326170453]
コネクションパズル(Connections puzzle)は、ニューヨーク・タイムズ(NYT)が毎日発行しているワードアソシエーションゲームである。
新たなパズルを生成するには、メタ認知の形式が必要である: ジェネレータは、潜在的な解決者の下流の推論を正確にモデル化できなければならない。
この結果から,LLMは有能なパズル作成者であり,人間によって判断されるような,楽しい,挑戦的な,創造的なコネクトパズルを多種多様なセットで生成できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T21:05:25Z) - Missed Connections: Lateral Thinking Puzzles for Large Language Models [2.1374208474242815]
ニューヨーク・タイムズが毎日発行するコネクショニオンパズルは、16ワードのバンクを4つのグループに分け、それぞれが共通のテーマに関連付けている。
自動AIシステムがConnectionsをプレイする能力について検討し、抽象的推論のための自動ベンチマークとしてゲームの可能性を探る。
論文 参考訳(メタデータ) (2024-04-17T20:31:05Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。
私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。
我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文 参考訳(メタデータ) (2022-07-25T23:57:44Z) - Contextual Games: Multi-Agent Learning with Side Information [57.76996806603094]
各ラウンドでコンテキスト情報によって駆動されるコンテキストゲームの新しいクラスを定式化する。
カーネルベースの規則性仮定を用いて、異なるコンテキストとゲーム結果の相関関係をモデル化する。
本研究では,個々のプレイヤーの文脈的後悔を最小限に抑えるために,そのような相関を利用した新しいオンライン(メタ)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T18:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。