論文の概要: PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems?
- arxiv url: http://arxiv.org/abs/2402.02611v2
- Date: Thu, 22 Feb 2024 14:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:53:30.090883
- Title: PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems?
- Title(参考訳): PuzzleBench: LLMは第一級のコンビネーション推論問題を解決することができるか?
- Authors: Chinmay Mittal, Krishna Kartik, Mausam, Parag Singla
- Abstract要約: 本稿では,31の課題のデータセットであるPuzzleBenchについて紹介する。
これらの問題は、すべて第一次、すなわち、様々な大きさの問題のインスタンスでインスタンス化でき、そのほとんどはNPハードである。
まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。
そこで本研究では,LLMとシンボルソルバとインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
- 参考スコア(独自算出の注目度): 27.696027301600793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works show that the largest of the large language models (LLMs) can
solve many simple reasoning tasks expressed in natural language, without
any/much supervision. But, can they also solve challenging first-order
combinatorial reasoning problems, such as graph coloring, knapsack and
cryptarithmetic? To answer this question, we present PuzzleBench, a dataset of
31 such challenging problems along with a few solved instances for each
problem. These problems are all first order, i.e., they can be instantiated
with problem instances of varying sizes, and most of them are NP-hard,
requiring several reasoning steps to reach the solution. We first observe that
LLMs, even when aided by symbolic solvers, perform rather poorly on our
dataset. In response, we propose a new approach, Puzzle-LM, which combines LLMs
with both symbolic solvers and program interpreters, along with feedback from
solved examples, to achieve huge performance gains. Our extensive
experimentation and analyses offer new insights into the reasoning abilities
and limitations of present-day LLMs.
- Abstract(参考訳): 近年の研究では,大規模言語モデル (LLM) の中で最大のものは,自然言語で表される多くの単純な推論タスクを,いかなる監督も受けずに解決できることが示されている。
しかし、グラフカラー化やknapsack、暗号計算といった一階組合せ推論の問題も解決できるのだろうか?
この質問に答えるために,31の難題のデータセットであるchallengebenchと,各問題に対するいくつかの解決されたインスタンスを提案する。
これらの問題は、すべて1次、すなわち、様々なサイズの問題インスタンスでインスタンス化でき、そのほとんどはnpハードであり、ソリューションに到達するためにいくつかの推論ステップを必要とする。
まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。
そこで本研究では,LLMとシンボルソルバとプログラムインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
我々の広範な実験と分析は、今日のLLMの推論能力と限界に関する新たな洞察を提供する。
関連論文リスト
- Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Divide-or-Conquer? Which Part Should You Distill Your LLM? [40.563633582127316]
我々は、推論タスクを問題解決フェーズと問題解決フェーズに分解する同様の戦略を考案する。
戦略が単一ステージソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:28:46Z) - SoLA: Solver-Layer Adaption of LLM for Better Logic Reasoning [12.402431071735446]
そこで我々は,大言語モデルの新たな層としてソルバを導入し,新しいソルバ層適応法(SoLA)を提案する。
SoLAは、自然言語で記述された検索空間を理解し、高品質のローカルソリューションを特定することを目的としている。
既存の記号解法に対する一貫した性能を実証的に実証する。
論文 参考訳(メタデータ) (2024-02-19T07:38:57Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners? [118.37810735783991]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with
Large Language Models [70.76692652007469]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward
Reasoning in Math Word Problems [18.69394742883921]
後方推論は数学用語の問題では 比較的未発見です
4つのSOTA LLMにおける前方推論と比較して,後方推論におけるモデルの精度は著しく低下した。
PAL-Tools はプログラム支援 LLM のアイデアを組み合わせて,外部の解法で解ける方程式の集合を生成し, 作業確認は, 前方方向の精度の高い自然検証器の可用性を活用する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。