Fugu-MT 論文翻訳(概要): Solving and Generating NPR Sunday Puzzles with Large Language Models

論文の概要: Solving and Generating NPR Sunday Puzzles with Large Language Models

arxiv url: http://arxiv.org/abs/2306.12255v1
Date: Wed, 21 Jun 2023 13:23:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 13:19:24.950399
Title: Solving and Generating NPR Sunday Puzzles with Large Language Models
Title（参考訳）: 大規模言語モデルによるNPR日曜日パズルの解決と生成
Authors: Jingmiao Zhao and Carolyn Jane Anderson
Abstract要約: 最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。 GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We explore the ability of large language models to solve and generate puzzles from the NPR Sunday Puzzle game show using PUZZLEQA, a dataset comprising 15 years of on-air puzzles. We evaluate four large language models using PUZZLEQA, in both multiple choice and free response formats, and explore two prompt engineering techniques to improve free response performance: chain-of-thought reasoning and prompt summarization. We find that state-of-the-art large language models can solve many PUZZLEQA puzzles: the best model, GPT-3.5, achieves 50.2% loose accuracy. However, in our few-shot puzzle generation experiment, we find no evidence that models can generate puzzles: GPT-3.5 generates puzzles with answers that do not conform to the generated rules. Puzzle generation remains a challenging task for future work.
Abstract（参考訳）: 我々は15年間のオンラインパズルからなるデータセットである puzzleqa を用いて,npr sunday puzzle game show からパズルを解き,生成する大規模言語モデルの能力を検討する。 PUZLEQAを用いた4つの大規模言語モデルを複数選択および自由応答形式で評価し、自由応答性能を改善するための2つの迅速なエンジニアリング手法を探索する。最先端の大規模言語モデルは、多くのパズルカパズルを解決できる:最良のモデルであるgpt-3.5は、50.2%のゆるい精度を実現している。しかし、この数発のパズル生成実験では、モデルがパズルを生成できるという証拠は見つからない: GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。パズル生成は、今後の仕事にとって難題である。

関連論文リスト

The Token Games: Evaluating Language Model Reasoning with Puzzle Duels [6.179868854898031]
The Token Games (TTG) は、16世紀の数学的なデュエルからインスピレーションを得ており、モデルがパズルを作成することによって互いに挑戦する評価フレームワークである。ペアワイズデュエルの結果を用いて、Eloのレーティングを計算し、互いに相対的なモデルを比較する。我々はTTG上で10のフロンティアモデルを評価し、HumanityのLast Examのような既存のベンチマークのランクと密に一致している。
論文参考訳（メタデータ） (2026-02-19T20:49:15Z)
HardcoreLogic: Challenging Large Reasoning Models with Long-tail Logic Puzzle Games [47.168515381473576]
大規模推論モデル(LRM)は、論理パズルゲームを含む複雑なタスクにおける印象的なパフォーマンスを実証している。既存のコーパスは、9x9 Sudokuのような人気のパズルに焦点を当てており、標準フォーマットに過度に適合し、ソリューションパターンを記憶するリスクがある。 HardcoreLogicは10ゲームにわたる5000以上のパズルの挑戦的なベンチマークである。
論文参考訳（メタデータ） (2025-10-14T14:23:24Z)
PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文参考訳（メタデータ） (2025-06-06T16:17:09Z)
Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language [67.51318974970985]
自然言語でパズルを解くことは、AIにおける長年の課題である。本稿では,大規模言語モデルを論理プログラミングでブリッジするフレームワークであるLogic-of-Thoughtを提案する。動作を含む様々なグリッドパズルや動的パズルについて評価し、全てのタスクにおいてほぼ完璧な精度を示す。
論文参考訳（メタデータ） (2025-05-22T01:37:40Z)
GenVP: Generating Visual Puzzles with Contrastive Hierarchical VAEs [15.118234858274679]
本稿では,RPM生成プロセス全体をモデル化するための生成的ビジュアルパズル (GenVP) を提案する。私たちのモデルの能力は、1つの特定の問題に対して複数のソリューションを生成することから、望ましいルールセットから完全な新しいパズルを生成することまで、多岐にわたっています。
論文参考訳（メタデータ） (2025-03-30T21:35:26Z)
PuzzleGPT: Emulating Human Puzzle-Solving Ability for Time and Location Prediction [35.77541376401752]
PuzzleGPTは、視覚的手がかりを特定する知覚器、予測候補を推論する推論器、タスクがローカルで解決できない場合に外部知識を得るWeb検索器から構成される。これにより、2つのデータセットで最先端のパフォーマンスを記録する、ゼロショット、解釈可能、堅牢なアプローチが実現される。
論文参考訳（メタデータ） (2025-01-24T03:28:37Z)
Making New Connections: LLMs as Puzzle Generators for The New York Times' Connections Word Game [6.136654326170453]
コネクションパズル(Connections puzzle)は、ニューヨーク・タイムズ(NYT)が毎日発行しているワードアソシエーションゲームである。新たなパズルを生成するには、メタ認知の形式が必要である: ジェネレータは、潜在的な解決者の下流の推論を正確にモデル化できなければならない。この結果から,LLMは有能なパズル作成者であり,人間によって判断されるような,楽しい,挑戦的な,創造的なコネクトパズルを多種多様なセットで生成できることがわかった。
論文参考訳（メタデータ） (2024-07-15T21:05:25Z)
Solving Zebra Puzzles Using Constraint-Guided Multi-Agent Systems [25.0042181817455]
本稿では,大言語モデルとオフ・ザ・シェルフ定理証明器を統合したマルチエージェントシステムZPSを紹介する。このシステムは、問題をより小さく管理可能な部分に分割することで、複雑なパズル解決作業に取り組む。また,問題解の正当性を評価するための自動グリッドパズルグレーダを導入し,ユーザスタディで評価することで,自動グレーダが信頼性が高いことを示す。
論文参考訳（メタデータ） (2024-07-04T14:22:25Z)
PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。単純な抽象パターンをうまく一般化できないことが分かりました。系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文参考訳（メタデータ） (2024-03-20T05:37:24Z)
Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文参考訳（メタデータ） (2024-03-06T17:15:04Z)
Solving Witness-type Triangle Puzzles Faster with an Automatically Learned Human-Explainable Predicate [0.29005223064604074]
We developed a search-based intelligence puzzle solver for The Witness game。我々は、ウィットネス型パズルへの部分経路が解経路に合成可能でないかどうかを予測する人間の説明可能な述語を学ぶ。我々は、学習した述語の重要な性質を証明し、それを検索において後継状態の刈り取りに利用できるようにした。
論文参考訳（メタデータ） (2023-08-04T18:52:18Z)
Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。 ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-05-17T23:16:17Z)
Automated Graph Genetic Algorithm based Puzzle Validation for Faster Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文参考訳（メタデータ） (2023-02-17T18:15:33Z)
Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6～8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文参考訳（メタデータ） (2022-12-20T04:33:32Z)
Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文参考訳（メタデータ） (2022-07-20T19:49:32Z)
PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文参考訳（メタデータ） (2020-04-27T20:34:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。