論文の概要: Are LLMs Good Cryptic Crossword Solvers?
- arxiv url: http://arxiv.org/abs/2403.12094v1
- Date: Fri, 15 Mar 2024 06:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 18:51:33.913605
- Title: Are LLMs Good Cryptic Crossword Solvers?
- Title(参考訳): LLMsはCryptic Crossword Solversか?
- Authors: Abdelrahman "Boda" Sadallah, Daria Kotova, Ekaterina Kochmar,
- Abstract要約: クリプティッククロスワード(英: Cryptic crosswords)とは、様々なレベルの言語を操り、様々な種類のワードプレイに対処するソルバの能力に依存するパズルである。
従来の研究では、現代のNLPモデルにおいても、そのようなパズルを解くことが難しいことが示唆されている。
- 参考スコア(独自算出の注目度): 4.463184061618504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cryptic crosswords are puzzles that rely not only on general knowledge but also on the solver's ability to manipulate language on different levels and deal with various types of wordplay. Previous research suggests that solving such puzzles is a challenge even for modern NLP models. However, the abilities of large language models (LLMs) have not yet been tested on this task. In this paper, we establish the benchmark results for three popular LLMs -- LLaMA2, Mistral, and ChatGPT -- showing that their performance on this task is still far from that of humans.
- Abstract(参考訳): クリプティッククロスワード(英: Cryptic crosswords)は、一般的な知識だけでなく、様々なレベルで言語を操り、様々な種類のワードプレイに対処するソルバの能力にも依存するパズルである。
従来の研究では、現代のNLPモデルにおいても、そのようなパズルを解くことが難しいことが示唆されている。
しかし、大きな言語モデル(LLM)の能力はまだテストされていない。
本稿では、LLaMA2、Mistral、ChatGPTの3つの人気のあるLCMのベンチマーク結果を確立する。
関連論文リスト
- Open Source Conversational LLMs do not know most Spanish words [2.737783055857426]
我々は,オープンソースチャットLLMがスペイン語の単語に対して持つ知識を,参照辞書における単語のサンプルをテストすることによって評価する。
その結果、オープンソースのチャットLLMは、単語の重要部分に対して誤った意味を生じさせ、文脈で文章を書くためにほとんどの単語を正しく利用できないことがわかった。
論文 参考訳(メタデータ) (2024-03-21T15:41:02Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems? [27.696027301600793]
本稿では,31の課題のデータセットであるPuzzleBenchについて紹介する。
これらの問題は、すべて第一次、すなわち、様々な大きさの問題のインスタンスでインスタンス化でき、そのほとんどはNPハードである。
まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。
そこで本研究では,LLMとシンボルソルバとインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners? [118.37810735783991]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z) - True Detective: A Deep Abductive Reasoning Benchmark Undoable for GPT-3
and Challenging for GPT-4 [0.0]
大型言語モデル (LLM) は、ゼロショット推論機能を実証している。
本稿では,探偵パズルとして構築された191の長文(平均1200語)のミステリー物語からなる,そのようなベンチマークを紹介する。
GPT-3モデルは28%の精度でランダムに性能を上回り、最先端のGPT-4ではパズルの38%しか解けていない。
論文 参考訳(メタデータ) (2022-12-20T09:34:43Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Large Language Models and the Reverse Turing Test [0.0]
LLMのインテリジェンスに見えるのは、実際にインタビュアーのインテリジェンスを反映したミラーかもしれない。
LLMがより能力を持つようになると、情報へのアクセスと利用の方法を変えるかもしれません。
論文 参考訳(メタデータ) (2022-07-28T21:22:47Z) - Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as
a Target for NLP [5.447716844779342]
クリプティック・クロスワード(Cryptic crosswords)は、イギリスにおける英語を話すクロスワードである。
ベンチマークとして使用可能な暗号クロスワードヒントのデータセットを提示し,それらを解決するためにシーケンス・ツー・シーケンスモデルをトレーニングする。
新たなカリキュラム学習手法により,性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-04-17T18:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。