論文の概要: Solving and Generating NPR Sunday Puzzles with Large Language Models
- arxiv url: http://arxiv.org/abs/2306.12255v1
- Date: Wed, 21 Jun 2023 13:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 13:19:24.950399
- Title: Solving and Generating NPR Sunday Puzzles with Large Language Models
- Title(参考訳): 大規模言語モデルによるNPR日曜日パズルの解決と生成
- Authors: Jingmiao Zhao and Carolyn Jane Anderson
- Abstract要約: 最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。
最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。
GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We explore the ability of large language models to solve and generate puzzles
from the NPR Sunday Puzzle game show using PUZZLEQA, a dataset comprising 15
years of on-air puzzles. We evaluate four large language models using PUZZLEQA,
in both multiple choice and free response formats, and explore two prompt
engineering techniques to improve free response performance: chain-of-thought
reasoning and prompt summarization. We find that state-of-the-art large
language models can solve many PUZZLEQA puzzles: the best model, GPT-3.5,
achieves 50.2% loose accuracy. However, in our few-shot puzzle generation
experiment, we find no evidence that models can generate puzzles: GPT-3.5
generates puzzles with answers that do not conform to the generated rules.
Puzzle generation remains a challenging task for future work.
- Abstract(参考訳): 我々は15年間のオンラインパズルからなるデータセットである puzzleqa を用いて,npr sunday puzzle game show からパズルを解き,生成する大規模言語モデルの能力を検討する。
PUZLEQAを用いた4つの大規模言語モデルを複数選択および自由応答形式で評価し、自由応答性能を改善するための2つの迅速なエンジニアリング手法を探索する。
最先端の大規模言語モデルは、多くのパズルカパズルを解決できる:最良のモデルであるgpt-3.5は、50.2%のゆるい精度を実現している。
しかし、この数発のパズル生成実験では、モデルがパズルを生成できるという証拠は見つからない: GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
パズル生成は、今後の仕事にとって難題である。
関連論文リスト
- Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - Frontier Language Models are not Robust to Adversarial Arithmetic, or
"What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。
この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。
これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文 参考訳(メタデータ) (2023-11-08T19:07:10Z) - BRAINTEASER: Lateral Thinking Puzzles for Large Language Models [15.95314613982879]
BRAINTEASERは、横方向の思考を示すモデルの能力をテストするために設計された多重選択質問回答タスクである。
最先端のインストラクションとコモンセンス言語モデルを用いた実験により,人間とモデルの性能の間に大きなギャップがあることが判明した。
横方向の思考モデルの開発と評価作業を促進するために、コードとデータをすべて利用可能にしています。
論文 参考訳(メタデータ) (2023-10-08T07:46:01Z) - Solving Witness-type Triangle Puzzles Faster with an Automatically
Learned Human-Explainable Predicate [0.29005223064604074]
We developed a search-based intelligence puzzle solver for The Witness game。
我々は、ウィットネス型パズルへの部分経路が解経路に合成可能でないかどうかを予測する人間の説明可能な述語を学ぶ。
我々は、学習した述語の重要な性質を証明し、それを検索において後継状態の刈り取りに利用できるようにした。
論文 参考訳(メタデータ) (2023-08-04T18:52:18Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z) - Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6~8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。
実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文 参考訳(メタデータ) (2022-12-20T04:33:32Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - GANzzle: Reframing jigsaw puzzle solving as a retrieval task using a
generative mental image [15.132848477903314]
すべての部品からメンタルなイメージを推測し、その部品を爆発を避けるためにマッチさせることができる。
本研究では,未整列片の集合が与えられた画像の再構成方法を学び,各部品の符号化を発電機の収穫層に整合させる共同埋め込み空間を学習する。
このような場合、我々のモデルはパズルのサイズに依存しないが、従来の1つの大きさの深層学習法とは対照的である。
論文 参考訳(メタデータ) (2022-07-12T16:02:00Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。