Fugu-MT 論文翻訳(概要): From Rosetta to Match-Up: A Paired Corpus of Linguistic Puzzles with Human and LLM Benchmarks

論文の概要: From Rosetta to Match-Up: A Paired Corpus of Linguistic Puzzles with Human and LLM Benchmarks

arxiv url: http://arxiv.org/abs/2605.13408v1
Date: Wed, 13 May 2026 12:03:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:28.030286
Title: From Rosetta to Match-Up: A Paired Corpus of Linguistic Puzzles with Human and LLM Benchmarks
Title（参考訳）: RosettaからMatch-Up:人間とLLMベンチマークによる言語パズルのペアコーパス
Authors: Neh Majmudar, Anne Huang, Jinfan Frank Hu, Elena Filatova,
Abstract要約: 高校の言語学コンペティションで使用される言語パズルについて検討する。既存のロゼッタ・ストーンパズルを対応するマッチアップパズルに変換するための体系的な手順を提案する。得られたRosetta Stone-Match-Upペアを,ヒトと大言語モデルの両方で評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we examine linguistic puzzles used in high school linguistics competitions, focusing on two common formats: Rosetta Stone and Match-Up. We propose a systematic procedure for converting existing Rosetta Stone puzzles into corresponding Match-Up counterparts. Because linguistic puzzle creation is complex and time-consuming, our method provides an efficient way to accelerate the generation of new puzzles. We evaluate the resulting Rosetta Stone-Match-Up pairs with both human participants and large language models (LLMs). Our results show that both expert human solvers and LLMs display an all-or-nothing pattern on Match-Up puzzles, either solving them completely or failing entirely. This work contributes a new dataset of paired puzzles and provides a detailed evaluation of puzzle difficulty across formats, offering insights into both human and machine linguistic reasoning.
Abstract（参考訳）: 本稿では,高校の言語コンペで使用される言語パズルについて,Rosetta StoneとMatch-Upの2つの共通形式に着目して検討する。既存のロゼッタ・ストーンパズルを対応するマッチアップパズルに変換するための体系的な手順を提案する。言語パズル生成は複雑で時間を要するため,本手法は新たなパズル生成を高速化する効率的な方法である。得られたRosetta Stone-Match-Upペアを,人間と大規模言語モデル(LLM)の両方で評価した。以上の結果から,人間解法の専門家とLLMの双方がMatch-Upパズルにオール・オー・ナッシング・パターンを示し,完全に解けるか,完全に失敗するかのどちらかを示した。この研究は、ペアパズルの新しいデータセットを提供し、フォーマット間でパズルの難しさを詳細に評価し、人間と機械の言語的推論の両方に関する洞察を提供する。

関連論文リスト

Can LLMs Solve and Generate Linguistic Olympiad Puzzles? [0.0]
我々は,高校生を対象とした言語オリンピアードのパズルに着目した。本稿では,Large Language Models (LLM) を用いた言語パズルの解法について検討する。パズル解法実験から得られた知見を用いて,パズル生成の新たな課題を導出する。
論文参考訳（メタデータ） (2025-09-26T03:26:28Z)
Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint [57.73346054360675]
画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
論文参考訳（メタデータ） (2025-05-29T17:59:47Z)
Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language [67.51318974970985]
自然言語でパズルを解くことは、AIにおける長年の課題である。本稿では,大規模言語モデルを論理プログラミングでブリッジするフレームワークであるLogic-of-Thoughtを提案する。動作を含む様々なグリッドパズルや動的パズルについて評価し、全てのタスクにおいてほぼ完璧な精度を示す。
論文参考訳（メタデータ） (2025-05-22T01:37:40Z)
On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。 1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文参考訳（メタデータ） (2024-10-30T15:31:54Z)
Solving Zebra Puzzles Using Constraint-Guided Multi-Agent Systems [25.0042181817455]
本稿では,大言語モデルとオフ・ザ・シェルフ定理証明器を統合したマルチエージェントシステムZPSを紹介する。このシステムは、問題をより小さく管理可能な部分に分割することで、複雑なパズル解決作業に取り組む。また,問題解の正当性を評価するための自動グリッドパズルグレーダを導入し,ユーザスタディで評価することで,自動グレーダが信頼性が高いことを示す。
論文参考訳（メタデータ） (2024-07-04T14:22:25Z)
Solving and Generating NPR Sunday Puzzles with Large Language Models [0.0]
最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。 GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
論文参考訳（メタデータ） (2023-06-21T13:23:48Z)
Automated Graph Genetic Algorithm based Puzzle Validation for Faster Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文参考訳（メタデータ） (2023-02-17T18:15:33Z)
PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文参考訳（メタデータ） (2020-04-27T20:34:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。