論文の概要: Down and Across: Introducing Crossword-Solving as a New NLP Benchmark
- arxiv url: http://arxiv.org/abs/2205.10442v1
- Date: Fri, 20 May 2022 21:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 14:08:23.691992
- Title: Down and Across: Introducing Crossword-Solving as a New NLP Benchmark
- Title(参考訳): Down and Across: 新しいNLPベンチマークとしてクロスワードソルビングを導入する
- Authors: Saurabh Kulshreshtha, Olga Kovaleva, Namrata Shivagunde, Anna
Rumshisky
- Abstract要約: 25年にわたるニューヨーク・タイムズの日刊クロスワードから収集したクロスワードパズルのコーパスの仕様を公表する。
これらのパズルには、歴史的、事実的、単語の意味、同義語/匿名、補足語、略語、接頭辞/接頭辞、単語プレイ、言語横断の様々な手がかりが含まれている。
- 参考スコア(独自算出の注目度): 11.194615436370507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Solving crossword puzzles requires diverse reasoning capabilities, access to
a vast amount of knowledge about language and the world, and the ability to
satisfy the constraints imposed by the structure of the puzzle. In this work,
we introduce solving crossword puzzles as a new natural language understanding
task. We release the specification of a corpus of crossword puzzles collected
from the New York Times daily crossword spanning 25 years and comprised of a
total of around nine thousand puzzles. These puzzles include a diverse set of
clues: historic, factual, word meaning, synonyms/antonyms, fill-in-the-blank,
abbreviations, prefixes/suffixes, wordplay, and cross-lingual, as well as clues
that depend on the answers to other clues. We separately release the
clue-answer pairs from these puzzles as an open-domain question answering
dataset containing over half a million unique clue-answer pairs. For the
question answering task, our baselines include several sequence-to-sequence and
retrieval-based generative models. We also introduce a non-parametric
constraint satisfaction baseline for solving the entire crossword puzzle.
Finally, we propose an evaluation framework which consists of several
complementary performance metrics.
- Abstract(参考訳): クロスワードパズルを解くには、様々な推論能力、言語や世界に関する膨大な知識へのアクセス、パズルの構造によって課される制約を満たす能力が必要である。
本研究では,新しい自然言語理解課題としてクロスワードパズルの解法を導入する。
われわれは、ニューヨーク・タイムズの日刊クロスワードから収集されたクロスワードパズルのコーパスを25年間にわたって公開し、合計で約9万個のパズルからなる。
これらのパズルには、歴史的、事実的、単語の意味、同義語/匿名、補足詞、略語、接頭辞、接頭辞、接頭辞、言葉遊び、および他の手がかりへの答えに依存する手がかりが含まれる。
我々はこれらのパズルからヒント-回答ペアを50万以上のユニークなヒント-回答ペアを含むオープンドメイン質問応答データセットとして別々にリリースする。
質問応答タスクには、いくつかのシーケンス・ツー・シーケンスと検索に基づく生成モデルが含まれる。
また,クロスワードパズル全体を解くための非パラメトリック制約満足度基準を導入する。
最後に,いくつかの相補的パフォーマンス指標からなる評価フレームワークを提案する。
関連論文リスト
- Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Multi-Phase Relaxation Labeling for Square Jigsaw Puzzle Solving [73.58829980121767]
本稿では,大域最適化に基づく二乗ジグソーパズルの解法を提案する。
この手法は完全に自動化されており、事前情報を前提とせず、未知または未知のピースオリエンテーションでパズルを扱うことができる。
論文 参考訳(メタデータ) (2023-03-26T18:53:51Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z) - Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6~8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。
実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文 参考訳(メタデータ) (2022-12-20T04:33:32Z) - Rethinking Label Smoothing on Multi-hop Question Answering [87.68071401870283]
MHQA (Multi-Hop Question Answering) は質問応答において重要な分野である。
本研究では,マルチホップ推論の性能を制限する主要な要因を解析する。
学習プロセスに不確実性を組み込んだ新しいラベル平滑化手法F1 Smoothingを提案する。
論文 参考訳(メタデータ) (2022-12-19T14:48:08Z) - Automated Crossword Solving [38.36920665368784]
我々のシステムは、The New York Timesのクロスワードで、正確なパズルの精度を57%から82%に改善します。
私たちのシステムは,トップヒューマンクロスワードトーナメントでも優勝しました。
論文 参考訳(メタデータ) (2022-05-19T16:28:44Z) - A Puzzle-Based Dataset for Natural Language Inference [0.9594432031144714]
このデータセットには、パズル、ニー、ニーブ、ゼブラパズルという3つの領域の自然言語の論理パズルが含まれている。
それぞれのパズルは、テキストに現れる関係と個人に基づいて生成できるアトミックな質問の集合全体と関連付けられている。
論文 参考訳(メタデータ) (2021-12-10T18:53:06Z) - Pictorial and apictorial polygonal jigsaw puzzles: The lazy caterer
model, properties, and solvers [14.08706290287121]
任意の直線切断数で大域多角形/像を切断して生成した一般凸多角形であるジグソーパズルを定式化する。
このようなパズルの理論的性質を解析し、ピースが幾何的ノイズで汚染されたときの解法に固有の課題を含む。
論文 参考訳(メタデータ) (2020-08-17T22:07:40Z) - Automation Strategies for Unconstrained Crossword Puzzle Generation [0.0]
制約なしクロスワードパズルは制約付きクロスワード問題の一般化である。
本稿では,このような制約のない環境での自動クロスワードパズル生成のためのアルゴリズム戦略について論じる。
論文 参考訳(メタデータ) (2020-07-09T09:45:03Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。