論文の概要: What Makes Cryptic Crosswords Challenging for LLMs?
- arxiv url: http://arxiv.org/abs/2412.09012v1
- Date: Thu, 12 Dec 2024 07:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:21.244467
- Title: What Makes Cryptic Crosswords Challenging for LLMs?
- Title(参考訳): LLMにとってCryptic Crosswordsはどんなものか?
- Authors: Abdelrahman Sadallah, Daria Kotova, Ekaterina Kochmar,
- Abstract要約: クリプティッククロスワード(英: Cryptic crosswords)は、一般的な知識と、解法が異なるレベルで言語を操作する能力に依存するパズルである。
従来の研究では、そのようなパズルを解くことは、Large Language Models (LLMs)を含む現代のNLPモデルにおいても難しいことが示唆されている。
- 参考スコア(独自算出の注目度): 4.463184061618504
- License:
- Abstract: Cryptic crosswords are puzzles that rely on general knowledge and the solver's ability to manipulate language on different levels, dealing with various types of wordplay. Previous research suggests that solving such puzzles is challenging even for modern NLP models, including Large Language Models (LLMs). However, there is little to no research on the reasons for their poor performance on this task. In this paper, we establish the benchmark results for three popular LLMs: Gemma2, LLaMA3 and ChatGPT, showing that their performance on this task is still significantly below that of humans. We also investigate why these models struggle to achieve superior performance. We release our code and introduced datasets at https://github.com/bodasadallah/decrypting-crosswords.
- Abstract(参考訳): クリプティッククロスワード(英: Cryptic crosswords)は、一般的な知識と、様々な種類のワードプレイを扱う様々なレベルで言語を操作する解法能力に依存するパズルである。
従来の研究では、Large Language Models (LLMs) を含む現代のNLPモデルにおいても、そのようなパズルの解決が難しいことが示唆されている。
しかし、この課題における彼らの業績が低かった理由についてはほとんど研究されていない。
本稿では, Gemma2, LLaMA3, ChatGPTの3つのLLMのベンチマーク結果について検討し, その性能が人間よりかなり低いことを示す。
また、これらのモデルが優れたパフォーマンスを達成するのに苦労する理由についても検討する。
コードをリリースし、https://github.com/bodasadallah/decrypting-crosswordsでデータセットを導入しました。
関連論文リスト
- Graph Reasoning with Large Language Models via Pseudo-code Prompting [25.469214467011362]
本稿では,グラフ問題の解法において,擬似コード命令によるプロンプトが大規模言語モデル(LLM)の性能を向上させるか否かを検討する。
実験により, 疑似符号命令を用いることで, 一般にLLMの性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-26T14:52:40Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - Language Models are Crossword Solvers [1.53744306569115]
我々は大言語モデル(LLM)を用いたクロスワードの解法に挑戦する。
我々は,現在の最先端技術(SoTA)言語モデルが,暗号的クロスワードの手がかりを解読する能力を示すことを示した。
また,LLMを用いて全クロスワードグリッドを解く問題に対処するために,この性能を生かした探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-06-13T12:29:27Z) - Are LLMs Good Cryptic Crossword Solvers? [4.463184061618504]
クリプティッククロスワード(英: Cryptic crosswords)とは、様々なレベルの言語を操り、様々な種類のワードプレイに対処するソルバの能力に依存するパズルである。
従来の研究では、現代のNLPモデルにおいても、そのようなパズルを解くことが難しいことが示唆されている。
論文 参考訳(メタデータ) (2024-03-15T06:57:08Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - True Detective: A Deep Abductive Reasoning Benchmark Undoable for GPT-3
and Challenging for GPT-4 [0.0]
大型言語モデル (LLM) は、ゼロショット推論機能を実証している。
本稿では,探偵パズルとして構築された191の長文(平均1200語)のミステリー物語からなる,そのようなベンチマークを紹介する。
GPT-3モデルは28%の精度でランダムに性能を上回り、最先端のGPT-4ではパズルの38%しか解けていない。
論文 参考訳(メタデータ) (2022-12-20T09:34:43Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。