論文の概要: Language Models are Crossword Solvers
- arxiv url: http://arxiv.org/abs/2406.09043v1
- Date: Thu, 13 Jun 2024 12:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-14 18:15:03.597638
- Title: Language Models are Crossword Solvers
- Title(参考訳): 言語モデルはクロスワードソルバーである
- Authors: Soumadeep Saha, Sutanoya Chakraborty, Saptarshi Saha, Utpal Garain,
- Abstract要約: 我々は大言語モデル(LLM)を用いたクロスワードの解法に挑戦する。
我々は,現在の最先端技術(SoTA)言語モデルが,暗号的クロスワードの手がかりを解読する能力を示すことを示した。
また,LLMを用いて全クロスワードグリッドを解く問題に対処するために,この性能を生かした探索アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 1.53744306569115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crosswords are a form of word puzzle that require a solver to demonstrate a high degree of proficiency in natural language understanding, wordplay, reasoning, and world knowledge, along with adherence to character and length constraints. In this paper we tackle the challenge of solving crosswords with Large Language Models (LLMs). We demonstrate that the current generation of state-of-the art (SoTA) language models show significant competence at deciphering cryptic crossword clues, and outperform previously reported SoTA results by a factor of 2-3 in relevant benchmarks. We also develop a search algorithm that builds off this performance to tackle the problem of solving full crossword grids with LLMs for the very first time, achieving an accuracy of 93\% on New York Times crossword puzzles. Contrary to previous work in this area which concluded that LLMs lag human expert performance significantly, our research suggests this gap is a lot narrower.
- Abstract(参考訳): クロスワード(Crosswords)は、自然言語理解、ワードプレイ、推論、世界知識において高い習熟度を示すために解法を必要とする単語パズルの一種であり、文字や長さの制約に固執している。
本稿では,Large Language Models (LLM) を用いたクロスワードの解法について述べる。
現状の最先端技術 (SoTA) 言語モデルでは, 暗号的クロスワードの手がかりを解読する能力が大きく, 関連するベンチマークでは2~3倍の精度で, 従来報告されていたSoTA結果よりも優れていたことが実証された。
また,ニューヨーク・タイムズのクロスワードパズルにおいて,初めて全クロスワードグリッドをLLMで解く問題に対処するために,この性能を利用した検索アルゴリズムを開発した。
LLMが人間の専門家のパフォーマンスを著しく低下させるというこの領域の以前の研究とは対照的に、我々の研究は、このギャップがより狭くなっていることを示唆している。
関連論文リスト
- CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - What Makes Cryptic Crosswords Challenging for LLMs? [4.463184061618504]
クリプティッククロスワード(英: Cryptic crosswords)は、一般的な知識と、解法が異なるレベルで言語を操作する能力に依存するパズルである。
従来の研究では、そのようなパズルを解くことは、Large Language Models (LLMs)を含む現代のNLPモデルにおいても難しいことが示唆されている。
論文 参考訳(メタデータ) (2024-12-12T07:23:52Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Are LLMs Good Cryptic Crossword Solvers? [4.463184061618504]
クリプティッククロスワード(英: Cryptic crosswords)とは、様々なレベルの言語を操り、様々な種類のワードプレイに対処するソルバの能力に依存するパズルである。
従来の研究では、現代のNLPモデルにおいても、そのようなパズルを解くことが難しいことが示唆されている。
論文 参考訳(メタデータ) (2024-03-15T06:57:08Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - The WebCrow French Crossword Solver [6.758790625418374]
我々は、自動クロスワードソルバであるWebCrowをフランス語に拡張し、フランス語でクロスワードソルバを行う最初のプログラムとなる。
ヒントと回答のクロスワードデータの大規模なリポジトリがないことに対処するため、WebCrowはエキスパートと呼ばれる複数のモジュールを利用して、異種リソースから候補回答を取得する。
我々は2つの異なる課題において、WebCrowのパフォーマンスを人間と比較した。過去のクロスワードの量が限られていたにもかかわらず、フランスのWebCrowは競争力があり、スピードと精度で人間よりも優れていた。
論文 参考訳(メタデータ) (2023-11-27T08:45:31Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z) - Down and Across: Introducing Crossword-Solving as a New NLP Benchmark [11.194615436370507]
25年にわたるニューヨーク・タイムズの日刊クロスワードから収集したクロスワードパズルのコーパスの仕様を公表する。
これらのパズルには、歴史的、事実的、単語の意味、同義語/匿名、補足語、略語、接頭辞/接頭辞、単語プレイ、言語横断の様々な手がかりが含まれている。
論文 参考訳(メタデータ) (2022-05-20T21:16:44Z) - Automated Crossword Solving [38.36920665368784]
我々のシステムは、The New York Timesのクロスワードで、正確なパズルの精度を57%から82%に改善します。
私たちのシステムは,トップヒューマンクロスワードトーナメントでも優勝しました。
論文 参考訳(メタデータ) (2022-05-19T16:28:44Z) - Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as
a Target for NLP [5.447716844779342]
クリプティック・クロスワード(Cryptic crosswords)は、イギリスにおける英語を話すクロスワードである。
ベンチマークとして使用可能な暗号クロスワードヒントのデータセットを提示し,それらを解決するためにシーケンス・ツー・シーケンスモデルをトレーニングする。
新たなカリキュラム学習手法により,性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-04-17T18:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。