論文の概要: Explaining Puzzle Solutions in Natural Language: An Exploratory Study on 6x6 Sudoku
- arxiv url: http://arxiv.org/abs/2505.15993v1
- Date: Wed, 21 May 2025 20:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.894912
- Title: Explaining Puzzle Solutions in Natural Language: An Exploratory Study on 6x6 Sudoku
- Title(参考訳): 自然言語におけるパズル解の解説:6x6スドクの探索的研究
- Authors: Anirudh Maiya, Razan Alghamdi, Maria Leonor Pacheco, Ashutosh Trivedi, Fabio Somenzi,
- Abstract要約: 5つの大言語モデル(LLM)の性能を6つのスドクパズルの解法と説明法として評価した。
1つのLSMはパズルの解法において限られた成功を示すが、戦略的推論や直感的な問題解決を反映した方法で解法プロセスを説明することはできない。
- 参考スコア(独自算出の注目度): 8.094824604103609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of Large Language Models (LLMs) in human-AI collaborative decision-making hinges on their ability to provide trustworthy, gradual, and tailored explanations. Solving complex puzzles, such as Sudoku, offers a canonical example of this collaboration, where clear and customized explanations often hold greater importance than the final solution. In this study, we evaluate the performance of five LLMs in solving and explaining \sixsix{} Sudoku puzzles. While one LLM demonstrates limited success in solving puzzles, none can explain the solution process in a manner that reflects strategic reasoning or intuitive problem-solving. These findings underscore significant challenges that must be addressed before LLMs can become effective partners in human-AI collaborative decision-making.
- Abstract(参考訳): 人類とAIの協力による意思決定における言語モデル(LLM)の成功は、信頼できる、段階的な、そして調整された説明を提供する能力に基づいている。
Sudokuのような複雑なパズルを解くことは、このコラボレーションの標準的な例であり、明確でカスタマイズされた説明が最終解よりも重要であることが多い。
本研究では, 5 個の LLM の解解法および説明法の性能評価を行った。
1つのLSMはパズルの解法において限られた成功を示すが、戦略的推論や直感的な問題解決を反映した方法で解法プロセスを説明することはできない。
これらの知見は、LLMが人間とAIの協調的な意思決定において効果的なパートナーになる前に対処しなければならない重要な課題を浮き彫りにしている。
関連論文リスト
- CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models [31.645103181716678]
LVLM(Large Vision-Language Models)は、正確な認識、ルール理解、論理的推論を必要とするパズルと競合する。
VGRP-Benchは、20種類のパズルを特徴とするVisual Grid Reasoning Puzzle Benchmarkである。
以上の結果から,現在最先端のLVLMでさえこれらのパズルに苦戦していることが明らかとなり,パズル解法の基本的限界が浮き彫りになった。
論文 参考訳(メタデータ) (2025-03-29T12:50:38Z) - Puzzle Solving using Reasoning of Large Language Models: A Survey [1.9939549451457024]
本稿では,Large Language Models (LLMs) のパズル解法における能力について検討する。
以上の結果から,LLM能力と人為的推論の相違が明らかとなった。
この調査は、LLMのパズル解決能力を向上させるために、新しい戦略とよりリッチなデータセットの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-17T14:19:38Z) - FCoReBench: Can Large Language Models Solve Challenging First-Order Combinatorial Reasoning Problems? [25.352721856952655]
一階推論問題は、様々なサイズの無限個の問題インスタンスでインスタンス化することができる。
課題40のデータセットであるFCoReBenchと,さまざまなサイズの問題インスタンスを生成し,そのソリューションを自動検証して生成するスクリプトを提案する。
本稿では,LLMとシンボルソルバとプログラムインタプリタを組み合わせたSymPro-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。