論文の概要: Solving and Generating NPR Sunday Puzzles with Large Language Models
- arxiv url: http://arxiv.org/abs/2306.12255v1
- Date: Wed, 21 Jun 2023 13:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 13:19:24.950399
- Title: Solving and Generating NPR Sunday Puzzles with Large Language Models
- Title(参考訳): 大規模言語モデルによるNPR日曜日パズルの解決と生成
- Authors: Jingmiao Zhao and Carolyn Jane Anderson
- Abstract要約: 最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。
最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。
GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We explore the ability of large language models to solve and generate puzzles
from the NPR Sunday Puzzle game show using PUZZLEQA, a dataset comprising 15
years of on-air puzzles. We evaluate four large language models using PUZZLEQA,
in both multiple choice and free response formats, and explore two prompt
engineering techniques to improve free response performance: chain-of-thought
reasoning and prompt summarization. We find that state-of-the-art large
language models can solve many PUZZLEQA puzzles: the best model, GPT-3.5,
achieves 50.2% loose accuracy. However, in our few-shot puzzle generation
experiment, we find no evidence that models can generate puzzles: GPT-3.5
generates puzzles with answers that do not conform to the generated rules.
Puzzle generation remains a challenging task for future work.
- Abstract(参考訳): 我々は15年間のオンラインパズルからなるデータセットである puzzleqa を用いて,npr sunday puzzle game show からパズルを解き,生成する大規模言語モデルの能力を検討する。
PUZLEQAを用いた4つの大規模言語モデルを複数選択および自由応答形式で評価し、自由応答性能を改善するための2つの迅速なエンジニアリング手法を探索する。
最先端の大規模言語モデルは、多くのパズルカパズルを解決できる:最良のモデルであるgpt-3.5は、50.2%のゆるい精度を実現している。
しかし、この数発のパズル生成実験では、モデルがパズルを生成できるという証拠は見つからない: GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
パズル生成は、今後の仕事にとって難題である。
関連論文リスト
- Making New Connections: LLMs as Puzzle Generators for The New York Times' Connections Word Game [6.136654326170453]
コネクションパズル(Connections puzzle)は、ニューヨーク・タイムズ(NYT)が毎日発行しているワードアソシエーションゲームである。
新たなパズルを生成するには、メタ認知の形式が必要である: ジェネレータは、潜在的な解決者の下流の推論を正確にモデル化できなければならない。
この結果から,LLMは有能なパズル作成者であり,人間によって判断されるような,楽しい,挑戦的な,創造的なコネクトパズルを多種多様なセットで生成できることがわかった。
論文 参考訳(メタデータ) (2024-07-15T21:05:25Z) - Solving Zebra Puzzles Using Constraint-Guided Multi-Agent Systems [25.0042181817455]
本稿では,大言語モデルとオフ・ザ・シェルフ定理証明器を統合したマルチエージェントシステムZPSを紹介する。
このシステムは、問題をより小さく管理可能な部分に分割することで、複雑なパズル解決作業に取り組む。
また,問題解の正当性を評価するための自動グリッドパズルグレーダを導入し,ユーザスタディで評価することで,自動グレーダが信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-07-04T14:22:25Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z) - Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - Solving Witness-type Triangle Puzzles Faster with an Automatically
Learned Human-Explainable Predicate [0.29005223064604074]
We developed a search-based intelligence puzzle solver for The Witness game。
我々は、ウィットネス型パズルへの部分経路が解経路に合成可能でないかどうかを予測する人間の説明可能な述語を学ぶ。
我々は、学習した述語の重要な性質を証明し、それを検索において後継状態の刈り取りに利用できるようにした。
論文 参考訳(メタデータ) (2023-08-04T18:52:18Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z) - Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6~8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。
実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文 参考訳(メタデータ) (2022-12-20T04:33:32Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。