論文の概要: PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems?
- arxiv url: http://arxiv.org/abs/2402.02611v1
- Date: Sun, 4 Feb 2024 20:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:35:50.264599
- Title: PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems?
- Title(参考訳): PuzzleBench: LLMは第一級のコンビネーション推論問題を解決することができるか?
- Authors: Chinmay Mittal, Krishna Kartik, Mausam, Parag Singla
- Abstract要約: LLMが一階述語推論問題に挑戦できるかどうかを考察する。
我々は,PuzzleBenchを31の難解パズルのデータセットとして提示する。シンボリック・ソルバによって支援された場合においても,我々のベンチマークではかなり低性能である。
そこで本研究では,LLMとシンボルソルバとプログラムインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
- 参考スコア(独自算出の注目度): 27.696027301600793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have explored the use of LLMs for reasoning tasks focussing on
relatively simple problems, such as logical question answering. In our work, we
wish to tackle more complicated problems, significantly expanding the
capabilities of these models. Particularly, we explore whether LLMs can solve
challenging first-order combinatorial reasoning problems, an example being the
popular puzzle Sudoku. These problems have an underlying first-order structure
described by a general description in natural language and can be instantiated
to instances of varying sizes. Moreover these problems are computationally
intensive requiring several reasoning steps to reach the solution. We present
PuzzleBench a dataset of 31 such challenging puzzles. We observe that LLMs even
when aided by symbolic solvers perform rather poorly on our benchmark. In
response we propose a new approach, Puzzle-LM which combines LLMs with both
symbolic solvers and program interpreters enabling them to reason about such
challenging problems. We also show how feedback from smaller solved instances
can help improve this reasoning ability.
- Abstract(参考訳): 最近の研究は、論理的質問応答のような比較的単純な問題に焦点をあてた推論タスクにLLMを使うことを探求している。
私たちの仕事では、より複雑な問題に取り組み、これらのモデルの能力を大きく拡大したいと考えています。
特に,LLMが難解な1次組合せ推論問題を解くことができるかどうかを考察する。
これらの問題は、自然言語の一般的な記述によって記述される基礎となる一階構造を持ち、様々なサイズのインスタンスにインスタンス化することができる。
さらに、これらの問題は、解に到達するためにいくつかの推論ステップを必要としている。
我々はPuzzleBenchに31の挑戦パズルのデータセットを提示する。
シンボリック・ソルバの助けを借りても, LLM はベンチマークではかなり低性能である。
そこで我々は,llm とシンボリックソルバとプログラムインタプリタを組み合わせることで,問題に対する推論を可能にする新しい手法である puzzle-lm を提案する。
また、より小さなインスタンスからのフィードバックが、この推論能力を改善する方法も示しています。
関連論文リスト
- Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Graph Reasoning with Large Language Models via Pseudo-code Prompting [25.469214467011362]
本稿では,グラフ問題の解法において,擬似コード命令によるプロンプトが大規模言語モデル(LLM)の性能を向上させるか否かを検討する。
実験により, 疑似符号命令を用いることで, 一般にLLMの性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-26T14:52:40Z) - Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter? [36.14795256060537]
複雑度が異なる274のグリッドベースパズルからなる評価データセットであるGridPuzzleを開発した。
第2に, GPT-4, Claude-3, Gemini, Mistral, Llama-2 など LLM の推論鎖を手動で解析した新しい誤り分類法を提案する。
第3に、大規模主観的評価のためのLLMベースのフレームワーク(すなわち、誤りを特定する)と客観的な指標であるPuzzleEvalを開発し、推論連鎖の正しさを評価する。
論文 参考訳(メタデータ) (2024-07-20T07:43:07Z) - Solving Zebra Puzzles Using Constraint-Guided Multi-Agent Systems [25.0042181817455]
本稿では,大言語モデルとオフ・ザ・シェルフ定理証明器を統合したマルチエージェントシステムZPSを紹介する。
このシステムは、問題をより小さく管理可能な部分に分割することで、複雑なパズル解決作業に取り組む。
また,問題解の正当性を評価するための自動グリッドパズルグレーダを導入し,ユーザスタディで評価することで,自動グレーダが信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-07-04T14:22:25Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は 比較的未調査です
後方推論は 前方推論の「逆」と見なすことができます
性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。