Fugu-MT 論文翻訳(概要): Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game

論文の概要: Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game

arxiv url: http://arxiv.org/abs/2406.11012v6
Date: Fri, 04 Oct 2024 04:53:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 12:55:54.399041
Title: Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game
Title（参考訳）: ドットの接続:New York Times Connections Word Gameを用いたLLMの抽象推論能力の評価
Authors: Prisha Samadarshi, Mariam Mustafa, Anushka Kulkarni, Raven Rothkopf, Tuhin Chakrabarty, Smaranda Muresan,
Abstract要約: 我々は,最先端の大規模言語モデル(LLM)の性能を,専門家や初心者に対して評価する。以上の結果から,最高性能のLPMであるGPT-4oでもゲーム全体の8%しか解けないことがわかった。
参考スコア（独自算出の注目度）: 20.64536059771047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The New York Times Connections game has emerged as a popular and challenging pursuit for word puzzle enthusiasts. We collect 200 Connections games to evaluate the performance of state-of-the-art large language models (LLMs) against expert and novice human players. Our results show that even the best-performing LLM, GPT-4o, which has otherwise shown impressive reasoning abilities on a wide variety of benchmarks, can only fully solve 8% of the games. Compared to GPT-4o, novice and expert players perform better, with expert human players significantly outperforming GPT-4o. To deepen our understanding we create a taxonomy of the knowledge types required to successfully categorize words in the Connections game, revealing that LLMs struggle with associative, encyclopedic, and linguistic knowledge. Our findings establish the New York Times Connections game as a challenging benchmark for evaluating abstract reasoning capabilities in humans and AI systems.
Abstract（参考訳）: New York Times Connectionsゲームは、ワードパズル愛好家のための人気で挑戦的な追跡ゲームとして登場した。我々は200のConnectionsゲームを収集し、最先端の大規模言語モデル(LLM)の性能を専門家や初心者の人間プレイヤーに対して評価する。以上の結果から,多種多様なベンチマークで顕著な推論能力を示した最高のLPMであるGPT-4oでも,ゲーム全体の8%しか解けないことがわかった。 GPT-4oと比較すると、初心者や専門家のプレイヤーはGPT-4oより優れており、専門家のプレイヤーはGPT-4oよりも優れていた。我々の理解を深めるために、私たちはコネクティクスゲームにおける単語の分類に成功するために必要な知識タイプの分類を作成し、LLMが連想的、百科事典的、言語的知識に苦しむことを明らかにした。我々の発見は、New York Times Connectionsゲームが、人間とAIシステムの抽象的推論能力を評価するための挑戦的なベンチマークとして確立されている。

関連論文リスト

ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文参考訳（メタデータ） (2025-10-12T11:11:20Z)
Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文参考訳（メタデータ） (2025-08-05T06:41:47Z)
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-02-20T08:36:58Z)
Codenames as a Benchmark for Large Language Models [2.1028463367241033]
一般的な単語ベースのボードゲームであるCodenamesを,大規模言語モデルの推論能力を評価するための適切なベンチマークとして使用しています。我々は,GPT-4o,Gemini 1.5,Claude 3.5 Sonnet,Llama 3.1など,最先端のLLMの能力を評価する。以上の結果から, ゲームプレイ中に異なるモデルが出現し, 特定の役割に優れることが示唆された。
論文参考訳（メタデータ） (2024-12-16T01:59:03Z)
NYT-Connections: A Deceptively Simple Text Classification Task that Stumps System-1 Thinkers [5.397565689903148]
我々はNew York Times Connectionsゲームから派生した358の簡単な単語分類パズルのコレクションであるNYT-Connectionsを紹介する。このベンチマークは、素早い直感的な"システム1"思考をペナルティ化し、基本的な推論スキルを分離するように設計されている。
論文参考訳（メタデータ） (2024-12-02T15:41:47Z)
Making New Connections: LLMs as Puzzle Generators for The New York Times' Connections Word Game [6.136654326170453]
コネクションパズル(Connections puzzle)は、ニューヨーク・タイムズ(NYT)が毎日発行しているワードアソシエーションゲームである。新たなパズルを生成するには、メタ認知の形式が必要である: ジェネレータは、潜在的な解決者の下流の推論を正確にモデル化できなければならない。この結果から,LLMは有能なパズル作成者であり,人間によって判断されるような,楽しい,挑戦的な,創造的なコネクトパズルを多種多様なセットで生成できることがわかった。
論文参考訳（メタデータ） (2024-07-15T21:05:25Z)
Language Models are Crossword Solvers [1.53744306569115]
我々は大言語モデル(LLM)を用いたクロスワードの解法に挑戦する。我々は,現在の最先端技術(SoTA)言語モデルが,暗号的クロスワードの手がかりを解読する能力を示すことを示した。また,LLMを用いて全クロスワードグリッドを解く問題に対処するために,この性能を生かした探索アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-06-13T12:29:27Z)
Missed Connections: Lateral Thinking Puzzles for Large Language Models [2.1374208474242815]
ニューヨーク・タイムズが毎日発行するコネクショニオンパズルは、16ワードのバンクを4つのグループに分け、それぞれが共通のテーマに関連付けている。自動AIシステムがConnectionsをプレイする能力について検討し、抽象的推論のための自動ベンチマークとしてゲームの可能性を探る。
論文参考訳（メタデータ） (2024-04-17T20:31:05Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)
JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文参考訳（メタデータ） (2022-10-18T19:20:53Z)
WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文参考訳（メタデータ） (2022-07-25T23:57:44Z)
Contextual Games: Multi-Agent Learning with Side Information [57.76996806603094]
各ラウンドでコンテキスト情報によって駆動されるコンテキストゲームの新しいクラスを定式化する。カーネルベースの規則性仮定を用いて、異なるコンテキストとゲーム結果の相関関係をモデル化する。本研究では,個々のプレイヤーの文脈的後悔を最小限に抑えるために,そのような相関を利用した新しいオンライン(メタ)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-13T18:37:37Z)
Playing Codenames with Language Graphs and Word Embeddings [21.358501003335977]
言語グラフBabelNetからコード名の手がかりを生成できるアルゴリズムを提案する。本稿では,手掛かりの質を測定する新しいスコアリング機能を提案する。 BabelNet-Word Selection Framework(BabelNet-WSF)を開発して、BabelNetの手がかり品質を向上させます。
論文参考訳（メタデータ） (2021-05-12T18:23:03Z)
Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2020-10-22T12:40:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。