論文の概要: PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems?
- arxiv url: http://arxiv.org/abs/2402.02611v1
- Date: Sun, 4 Feb 2024 20:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:35:50.264599
- Title: PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems?
- Title(参考訳): PuzzleBench: LLMは第一級のコンビネーション推論問題を解決することができるか?
- Authors: Chinmay Mittal, Krishna Kartik, Mausam, Parag Singla
- Abstract要約: LLMが一階述語推論問題に挑戦できるかどうかを考察する。
我々は,PuzzleBenchを31の難解パズルのデータセットとして提示する。シンボリック・ソルバによって支援された場合においても,我々のベンチマークではかなり低性能である。
そこで本研究では,LLMとシンボルソルバとプログラムインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
- 参考スコア(独自算出の注目度): 27.696027301600793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have explored the use of LLMs for reasoning tasks focussing on
relatively simple problems, such as logical question answering. In our work, we
wish to tackle more complicated problems, significantly expanding the
capabilities of these models. Particularly, we explore whether LLMs can solve
challenging first-order combinatorial reasoning problems, an example being the
popular puzzle Sudoku. These problems have an underlying first-order structure
described by a general description in natural language and can be instantiated
to instances of varying sizes. Moreover these problems are computationally
intensive requiring several reasoning steps to reach the solution. We present
PuzzleBench a dataset of 31 such challenging puzzles. We observe that LLMs even
when aided by symbolic solvers perform rather poorly on our benchmark. In
response we propose a new approach, Puzzle-LM which combines LLMs with both
symbolic solvers and program interpreters enabling them to reason about such
challenging problems. We also show how feedback from smaller solved instances
can help improve this reasoning ability.
- Abstract(参考訳): 最近の研究は、論理的質問応答のような比較的単純な問題に焦点をあてた推論タスクにLLMを使うことを探求している。
私たちの仕事では、より複雑な問題に取り組み、これらのモデルの能力を大きく拡大したいと考えています。
特に,LLMが難解な1次組合せ推論問題を解くことができるかどうかを考察する。
これらの問題は、自然言語の一般的な記述によって記述される基礎となる一階構造を持ち、様々なサイズのインスタンスにインスタンス化することができる。
さらに、これらの問題は、解に到達するためにいくつかの推論ステップを必要としている。
我々はPuzzleBenchに31の挑戦パズルのデータセットを提示する。
シンボリック・ソルバの助けを借りても, LLM はベンチマークではかなり低性能である。
そこで我々は,llm とシンボリックソルバとプログラムインタプリタを組み合わせることで,問題に対する推論を可能にする新しい手法である puzzle-lm を提案する。
また、より小さなインスタンスからのフィードバックが、この推論能力を改善する方法も示しています。
関連論文リスト
- Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。
本稿では, LLM から推論能力を抽出する手法を提案する。
提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文 参考訳(メタデータ) (2024-04-11T22:19:50Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Divide-or-Conquer? Which Part Should You Distill Your LLM? [40.563633582127316]
我々は、推論タスクを問題解決フェーズと問題解決フェーズに分解する同様の戦略を考案する。
戦略が単一ステージソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:28:46Z) - SoLA: Solver-Layer Adaption of LLM for Better Logic Reasoning [12.402431071735446]
そこで我々は,大言語モデルの新たな層としてソルバを導入し,新しいソルバ層適応法(SoLA)を提案する。
SoLAは、自然言語で記述された検索空間を理解し、高品質のローカルソリューションを特定することを目的としている。
既存の記号解法に対する一貫した性能を実証的に実証する。
論文 参考訳(メタデータ) (2024-02-19T07:38:57Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners? [118.37810735783991]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with
Large Language Models [70.76692652007469]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward
Reasoning in Math Word Problems [18.69394742883921]
後方推論は数学用語の問題では 比較的未発見です
4つのSOTA LLMにおける前方推論と比較して,後方推論におけるモデルの精度は著しく低下した。
PAL-Tools はプログラム支援 LLM のアイデアを組み合わせて,外部の解法で解ける方程式の集合を生成し, 作業確認は, 前方方向の精度の高い自然検証器の可用性を活用する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。