Fugu-MT 論文翻訳(概要): Are LLMs Good Cryptic Crossword Solvers?

論文の概要: Are LLMs Good Cryptic Crossword Solvers?

arxiv url: http://arxiv.org/abs/2403.12094v1
Date: Fri, 15 Mar 2024 06:57:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 18:51:33.913605
Title: Are LLMs Good Cryptic Crossword Solvers?
Title（参考訳）: LLMsはCryptic Crossword Solversか?
Authors: Abdelrahman "Boda" Sadallah, Daria Kotova, Ekaterina Kochmar,
Abstract要約: クリプティッククロスワード(英: Cryptic crosswords)とは、様々なレベルの言語を操り、様々な種類のワードプレイに対処するソルバの能力に依存するパズルである。従来の研究では、現代のNLPモデルにおいても、そのようなパズルを解くことが難しいことが示唆されている。
参考スコア（独自算出の注目度）: 4.463184061618504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cryptic crosswords are puzzles that rely not only on general knowledge but also on the solver's ability to manipulate language on different levels and deal with various types of wordplay. Previous research suggests that solving such puzzles is a challenge even for modern NLP models. However, the abilities of large language models (LLMs) have not yet been tested on this task. In this paper, we establish the benchmark results for three popular LLMs -- LLaMA2, Mistral, and ChatGPT -- showing that their performance on this task is still far from that of humans.
Abstract（参考訳）: クリプティッククロスワード(英: Cryptic crosswords)は、一般的な知識だけでなく、様々なレベルで言語を操り、様々な種類のワードプレイに対処するソルバの能力にも依存するパズルである。従来の研究では、現代のNLPモデルにおいても、そのようなパズルを解くことが難しいことが示唆されている。しかし、大きな言語モデル(LLM)の能力はまだテストされていない。本稿では、LLaMA2、Mistral、ChatGPTの3つの人気のあるLCMのベンチマーク結果を確立する。

関連論文リスト

Do You Get the Hint? Benchmarking LLMs on the Board Game Concept [1.671764884922859]
大規模言語モデル(LLM)は多くのベンチマークで大きな成功を収めているが、最近の研究は根本的弱点を明らかにし続けている。本稿では,自然言語データに近い表現において帰納的推論を探索するためのベンチマークとして,単純な単語ゲースボードゲームであるConceptを紹介する。以上の結果から,このゲームは人間によって容易に解ける(成功率は90%を超えている)。
論文参考訳（メタデータ） (2025-10-15T08:17:25Z)
Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language [67.51318974970985]
自然言語でパズルを解くことは、AIにおける長年の課題である。本稿では,大規模言語モデルを論理プログラミングでブリッジするフレームワークであるLogic-of-Thoughtを提案する。動作を含む様々なグリッドパズルや動的パズルについて評価し、全てのタスクにおいてほぼ完璧な精度を示す。
論文参考訳（メタデータ） (2025-05-22T01:37:40Z)
Codenames as a Benchmark for Large Language Models [2.1028463367241033]
一般的な単語ベースのボードゲームであるCodenamesを,大規模言語モデルの推論能力を評価するための適切なベンチマークとして使用しています。我々は,GPT-4o,Gemini 1.5,Claude 3.5 Sonnet,Llama 3.1など,最先端のLLMの能力を評価する。以上の結果から, ゲームプレイ中に異なるモデルが出現し, 特定の役割に優れることが示唆された。
論文参考訳（メタデータ） (2024-12-16T01:59:03Z)
What Makes Cryptic Crosswords Challenging for LLMs? [4.463184061618504]
クリプティッククロスワード(英: Cryptic crosswords)は、一般的な知識と、解法が異なるレベルで言語を操作する能力に依存するパズルである。従来の研究では、そのようなパズルを解くことは、Large Language Models (LLMs)を含む現代のNLPモデルにおいても難しいことが示唆されている。
論文参考訳（メタデータ） (2024-12-12T07:23:52Z)
Investigating Large Language Models for Complex Word Identification in Multilingual and Multidomain Setups [1.8377902806196766]
複雑な単語識別(CWI)は語彙的単純化作業において必須のステップであり、最近はそれ自体がタスクとなっている。大規模言語モデル(LLM)は最近、ゼロ/フェーショット設定で目に見えないタスクを解決できる汎用性と能力のために、自然言語処理コミュニティで人気を博した。 Llama 2, Llama 3, Vicuna v1.5などのオープンソースモデルや, CWI, LCP, MWE設定におけるChatGPT-3.5-turbo, GPT-4oなどのクローズソースなど, LLMの使用状況について検討した。
論文参考訳（メタデータ） (2024-11-03T22:31:02Z)
Do LLMs write like humans? Variation in grammatical and rhetorical styles [0.7852714805965528]
大規模言語モデル(LLM)の修辞形式について検討する。ダグラス・ビーバーの語彙的・文法的・修辞的特徴セットを用いて, LLMと人間との系統的差異を同定した。このことは、高度な能力にもかかわらず、LLMは人間のスタイルに合うのに苦労していることを示している。
論文参考訳（メタデータ） (2024-10-21T15:35:44Z)
CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。 LLMはどの程度の間、正書法情報を学ぶことができるのか? LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-23T18:27:03Z)
LLMs' Understanding of Natural Language Revealed [0.0]
大規模言語モデル(LLM)は、大規模言語におけるボトムアップ、データ駆動のリバースエンジニアリングにおける大規模な実験の結果である。私たちはLLMの言語理解能力、彼らが想定する砦をテストすることに重点を置きます。
論文参考訳（メタデータ） (2024-07-29T01:21:11Z)
Language Models are Crossword Solvers [1.53744306569115]
我々は大言語モデル(LLM)を用いたクロスワードの解法に挑戦する。我々は,現在の最先端技術(SoTA)言語モデルが,暗号的クロスワードの手がかりを解読する能力を示すことを示した。また,LLMを用いて全クロスワードグリッドを解く問題に対処するために,この性能を生かした探索アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-06-13T12:29:27Z)
When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。 FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文参考訳（メタデータ） (2024-02-16T22:12:53Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文参考訳（メタデータ） (2024-01-31T18:48:20Z)
Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができるこの研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文参考訳（メタデータ） (2023-04-12T17:33:28Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。