論文の概要: MultiZebraLogic: A Multilingual Logical Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2511.03553v1
- Date: Wed, 05 Nov 2025 15:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.465874
- Title: MultiZebraLogic: A Multilingual Logical Reasoning Benchmark
- Title(参考訳): MultiZebraLogic: 多言語論理推論ベンチマーク
- Authors: Sofie Helene Bruun, Dan Saattrup Smart,
- Abstract要約: 我々は、複数の言語、テーマ、サイズ、14の異なる手がかり型と8つのレッドハーリング型を含むゼブラパズルを生成する。
2x3 と 4x5 のパズルサイズは GPT-4o mini と o3-mini では十分難しい。
4x5パズルにおけるo3-miniのスコアは、英語対デンマーク語、一般家庭のテーマと国固有のスムーズなテーマに大きく影響しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Measuring the full abilities of large language models (LLMs) requires benchmarks representing multiple tasks. We aim to create large, high-quality datasets for comparison of logical reasoning skills across several languages and of suitable difficulty for LLMs of various reasoning ability. We explore multiple ways of increasing difficulty. We generate zebra puzzles in multiple languages, themes, sizes and including 14 different clue types and 8 red herring types (uninformative clues). We find puzzle sizes 2x3 and 4x5 are sufficiently challenging for GPT-4o mini (a non-reasoning model) and o3-mini (a reasoning model), respectively. Including 5 red herrings decreases o3-mini puzzle-level accuracy on 4x5 puzzles by 15$\pm$7 %. Scores of o3-mini on 4x5 puzzles are not significantly affected by use of English vs. Danish or the common houses theme vs. the country-specific smoerrebroed theme. We find no correlation between difficulty and the selected clue types. Datasets of 128+1024 puzzles are published as MultiZebraLogic in each of nine Germanic languages for sizes 2x3 and 4x5. We publish code for puzzle generation, designed for adaptablity into more languages and themes.
- Abstract(参考訳): 大規模言語モデル(LLM)の完全な能力を測定するには、複数のタスクを表すベンチマークが必要である。
いくつかの言語における論理的推論能力の比較と,様々な推論能力を持つLLMに適した難易度を求めるため,我々は大規模で高品質なデータセットを作成することを目指している。
我々は困難を増すための複数の方法を探る。
我々は、複数の言語、テーマ、サイズ、14の異なる手がかり型と8のレッドハーリング型を含むゼブラパズルを生成する(非形式的手がかり)。
GPT-4o mini(非推論モデル)とo3-mini(推論モデル)ではパズルのサイズが2x3と4x5で十分難しいことがわかった。
5つの赤いハーリングを含めると、4x5パズルのo3-miniパズルレベルの精度は15$\pm$7 %低下する。
4x5パズルにおけるo3-miniのスコアは、英語対デンマーク語、一般家庭のテーマと国固有のスムーズなテーマに大きく影響しない。
難易度と選択した手がかり型との間には相関関係は見つからない。
128以上のパズルのデータセットは、2x3と4x5の9つのゲルマン語でMultiZebraLogicとして発行されている。
より多くの言語やテーマに適応するために設計されたパズル生成のためのコードを公開する。
関連論文リスト
- HardcoreLogic: Challenging Large Reasoning Models with Long-tail Logic Puzzle Games [47.168515381473576]
大規模推論モデル(LRM)は、論理パズルゲームを含む複雑なタスクにおける印象的なパフォーマンスを実証している。
既存のコーパスは、9x9 Sudokuのような人気のパズルに焦点を当てており、標準フォーマットに過度に適合し、ソリューションパターンを記憶するリスクがある。
HardcoreLogicは10ゲームにわたる5000以上のパズルの挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-14T14:23:24Z) - Can LLMs Solve and Generate Linguistic Olympiad Puzzles? [0.0]
我々は,高校生を対象とした言語オリンピアードのパズルに着目した。
本稿では,Large Language Models (LLM) を用いた言語パズルの解法について検討する。
パズル解法実験から得られた知見を用いて,パズル生成の新たな課題を導出する。
論文 参考訳(メタデータ) (2025-09-26T03:26:28Z) - Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint [57.73346054360675]
画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
論文 参考訳(メタデータ) (2025-05-29T17:59:47Z) - Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language [67.51318974970985]
自然言語でパズルを解くことは、AIにおける長年の課題である。
本稿では,大規模言語モデルを論理プログラミングでブリッジするフレームワークであるLogic-of-Thoughtを提案する。
動作を含む様々なグリッドパズルや動的パズルについて評価し、全てのタスクにおいてほぼ完璧な精度を示す。
論文 参考訳(メタデータ) (2025-05-22T01:37:40Z) - Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - Solving and Generating NPR Sunday Puzzles with Large Language Models [0.0]
最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。
最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。
GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
論文 参考訳(メタデータ) (2023-06-21T13:23:48Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。