論文の概要: Missed Connections: Lateral Thinking Puzzles for Large Language Models
- arxiv url: http://arxiv.org/abs/2404.11730v1
- Date: Wed, 17 Apr 2024 20:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 20:10:25.511379
- Title: Missed Connections: Lateral Thinking Puzzles for Large Language Models
- Title(参考訳): 欠落した接続: 大規模言語モデルのための横方向の思考パズル
- Authors: Graham Todd, Tim Merino, Sam Earle, Julian Togelius,
- Abstract要約: ニューヨーク・タイムズが毎日発行するコネクショニオンパズルは、16ワードのバンクを4つのグループに分け、それぞれが共通のテーマに関連付けている。
自動AIシステムがConnectionsをプレイする能力について検討し、抽象的推論のための自動ベンチマークとしてゲームの可能性を探る。
- 参考スコア(独自算出の注目度): 2.1374208474242815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Connections puzzle published each day by the New York Times tasks players with dividing a bank of sixteen words into four groups of four words that each relate to a common theme. Solving the puzzle requires both common linguistic knowledge (i.e. definitions and typical usage) as well as, in many cases, lateral or abstract thinking. This is because the four categories ascend in complexity, with the most challenging category often requiring thinking about words in uncommon ways or as parts of larger phrases. We investigate the capacity for automated AI systems to play Connections and explore the game's potential as an automated benchmark for abstract reasoning and a way to measure the semantic information encoded by data-driven linguistic systems. In particular, we study both a sentence-embedding baseline and modern large language models (LLMs). We report their accuracy on the task, measure the impacts of chain-of-thought prompting, and discuss their failure modes. Overall, we find that the Connections task is challenging yet feasible, and a strong test-bed for future work.
- Abstract(参考訳): ニューヨーク・タイムズが毎日発行するコネクティクスパズルは、16ワードのバンクを4つのグループに分け、それぞれが共通のテーマに関連付けている。
パズルを解くには、共通言語知識(定義と典型的な使用法)と、多くの場合、横あるいは抽象的な思考の両方が必要である。
これは、4つのカテゴリが複雑さを増し、最も難しいカテゴリは、しばしば非日常的な言葉や大きなフレーズの一部として考える必要があるためである。
データ駆動型言語システムによって符号化された意味情報を測定するための,抽象的推論のための自動ベンチマークとして,ゲームの可能性を探るため,自動AIシステムがConnectionsをプレイする能力について検討する。
特に,文埋め込みベースラインと現代大言語モデル(LLM)について検討する。
タスクの正確さを報告し、チェーン・オブ・ソート・プロンプトの影響を計測し、その失敗モードについて議論する。
全体として、Connectionsタスクは難しいが実現可能であり、将来の作業のための強力なテストベッドであることが分かっています。
関連論文リスト
- Making New Connections: LLMs as Puzzle Generators for The New York Times' Connections Word Game [6.136654326170453]
コネクションパズル(Connections puzzle)は、ニューヨーク・タイムズ(NYT)が毎日発行しているワードアソシエーションゲームである。
新たなパズルを生成するには、メタ認知の形式が必要である: ジェネレータは、潜在的な解決者の下流の推論を正確にモデル化できなければならない。
この結果から,LLMは有能なパズル作成者であり,人間によって判断されるような,楽しい,挑戦的な,創造的なコネクトパズルを多種多様なセットで生成できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T21:05:25Z) - Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game [20.64536059771047]
我々は,最先端の大規模言語モデル(LLM)の性能を,専門家や初心者に対して評価する。
この結果から,最高のLLMであるClaude 3.5 Sonnetでもゲーム全体の18%しか解けないことがわかった。
本研究では,コネクティクスゲームにおける単語のクラスタ化と分類に要する知識の種類を分類する。
論文 参考訳(メタデータ) (2024-06-16T17:10:32Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z) - Retrieval-Generation Synergy Augmented Large Language Models [30.53260173572783]
本稿では,反復的な検索・生成協調フレームワークを提案する。
シングルホップQAとマルチホップQAタスクを含む4つの質問応答データセットの実験を行った。
論文 参考訳(メタデータ) (2023-10-08T12:50:57Z) - BRAINTEASER: Lateral Thinking Puzzles for Large Language Models [15.95314613982879]
BRAINTEASERは、横方向の思考を示すモデルの能力をテストするために設計された多重選択質問回答タスクである。
最先端のインストラクションとコモンセンス言語モデルを用いた実験により,人間とモデルの性能の間に大きなギャップがあることが判明した。
横方向の思考モデルの開発と評価作業を促進するために、コードとデータをすべて利用可能にしています。
論文 参考訳(メタデータ) (2023-10-08T07:46:01Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。