Fugu-MT 論文翻訳(概要): PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial Reasoning Problems?

論文の概要: PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial Reasoning Problems?

arxiv url: http://arxiv.org/abs/2402.02611v2
Date: Thu, 22 Feb 2024 14:42:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 17:53:30.090883
Title: PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial Reasoning Problems?
Title（参考訳）: PuzzleBench: LLMは第一級のコンビネーション推論問題を解決することができるか?
Authors: Chinmay Mittal, Krishna Kartik, Mausam, Parag Singla
Abstract要約: 本稿では,31の課題のデータセットであるPuzzleBenchについて紹介する。これらの問題は、すべて第一次、すなわち、様々な大きさの問題のインスタンスでインスタンス化でき、そのほとんどはNPハードである。まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。そこで本研究では,LLMとシンボルソルバとインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
参考スコア（独自算出の注目度）: 27.696027301600793
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works show that the largest of the large language models (LLMs) can solve many simple reasoning tasks expressed in natural language, without any/much supervision. But, can they also solve challenging first-order combinatorial reasoning problems, such as graph coloring, knapsack and cryptarithmetic? To answer this question, we present PuzzleBench, a dataset of 31 such challenging problems along with a few solved instances for each problem. These problems are all first order, i.e., they can be instantiated with problem instances of varying sizes, and most of them are NP-hard, requiring several reasoning steps to reach the solution. We first observe that LLMs, even when aided by symbolic solvers, perform rather poorly on our dataset. In response, we propose a new approach, Puzzle-LM, which combines LLMs with both symbolic solvers and program interpreters, along with feedback from solved examples, to achieve huge performance gains. Our extensive experimentation and analyses offer new insights into the reasoning abilities and limitations of present-day LLMs.
Abstract（参考訳）: 近年の研究では,大規模言語モデル (LLM) の中で最大のものは,自然言語で表される多くの単純な推論タスクを,いかなる監督も受けずに解決できることが示されている。しかし、グラフカラー化やknapsack、暗号計算といった一階組合せ推論の問題も解決できるのだろうか? この質問に答えるために,31の難題のデータセットであるchallengebenchと,各問題に対するいくつかの解決されたインスタンスを提案する。これらの問題は、すべて1次、すなわち、様々なサイズの問題インスタンスでインスタンス化でき、そのほとんどはnpハードであり、ソリューションに到達するためにいくつかの推論ステップを必要とする。まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。そこで本研究では,LLMとシンボルソルバとプログラムインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。我々の広範な実験と分析は、今日のLLMの推論能力と限界に関する新たな洞察を提供する。

関連論文リスト

MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer [37.81465564673498]
大規模言語モデル(LLM)は、数学的推論タスクを解く上で有望な能力を示した。メタプロブレムのリコールとリフレクションを LLM に明示的に促すフレームワークである textbfMetaLadder を提案する。我々のMetaLadderはLLMの問題解決精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-03-19T04:36:35Z)
EHOP: A Dataset of Everyday NP-Hard Optimization Problems [66.41749917354159]
Everyday Hard Optimization Problems (EHOP) は、自然言語で表されるNPハード最適化問題の集合である。 EHOPには、コンピュータサイエンスの教科書で見られる問題の定式化、実生活で起こりうる問題として着飾られたバージョン、逆ルールでよく知られた問題の変種が含まれている。現状のLLMは、複数のプロンプト戦略にまたがって、実生活や逆転型よりも教科書問題を体系的に高精度に解決していることがわかった。
論文参考訳（メタデータ） (2025-02-19T14:39:59Z)
Prompting Strategies for Enabling Large Language Models to Infer Causation from Correlation [68.58373854950294]
我々は因果推論に焦点をあて,相関情報に基づく因果関係の確立という課題に対処する。この問題に対して,元のタスクを固定的なサブクエストに分割するプロンプト戦略を導入する。既存の因果ベンチマークであるCorr2Causeに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-12-18T15:32:27Z)
Gap-Filling Prompting Enhances Code-Assisted Mathematical Reasoning [0.0]
パターン・オブ・シント(CoT)とプログラム・オブ・シント(PoT)ファインチューニング(PoT)は、LPMの知識を小さな言語モデル(SLM)に転送する一般的な方法である。本稿では,SLMの問題解決プロセスを強化するために,新たな2段階のプロンプト戦略であるGap-Filling Prompting(GFP)を紹介する。
論文参考訳（メタデータ） (2024-11-08T08:52:59Z)
Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。既存の数式語問題に対して,それらの性能を併用して評価する。
論文参考訳（メタデータ） (2024-10-02T17:01:10Z)
Graph Reasoning with Large Language Models via Pseudo-code Prompting [25.469214467011362]
本稿では,グラフ問題の解法において,擬似コード命令によるプロンプトが大規模言語モデル(LLM)の性能を向上させるか否かを検討する。実験により, 疑似符号命令を用いることで, 一般にLLMの性能が向上することが示された。
論文参考訳（メタデータ） (2024-09-26T14:52:40Z)
Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter? [36.14795256060537]
複雑度が異なる274のグリッドベースパズルからなる評価データセットであるGridPuzzleを開発した。第2に, GPT-4, Claude-3, Gemini, Mistral, Llama-2 など LLM の推論鎖を手動で解析した新しい誤り分類法を提案する。第3に、大規模主観的評価のためのLLMベースのフレームワーク(すなわち、誤りを特定する)と客観的な指標であるPuzzleEvalを開発し、推論連鎖の正しさを評価する。
論文参考訳（メタデータ） (2024-07-20T07:43:07Z)
Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns? [57.80779199039929]
大規模言語モデル (LLM) は数学問題の解法において顕著な性能を示した。本稿では,複数の未知の問題を組み込むことで,これらの制約に対処する新しいベンチマークであるBeyondXを紹介する。 BeyondXに関する実証的な研究によると、数学のタスクに特化して調整された既存のLLMの性能は、未知の数が増えるにつれて著しく低下する。
論文参考訳（メタデータ） (2024-07-06T17:01:04Z)
Solving Zebra Puzzles Using Constraint-Guided Multi-Agent Systems [25.0042181817455]
本稿では,大言語モデルとオフ・ザ・シェルフ定理証明器を統合したマルチエージェントシステムZPSを紹介する。このシステムは、問題をより小さく管理可能な部分に分割することで、複雑なパズル解決作業に取り組む。また,問題解の正当性を評価するための自動グリッドパズルグレーダを導入し,ユーザスタディで評価することで,自動グレーダが信頼性が高いことを示す。
論文参考訳（メタデータ） (2024-07-04T14:22:25Z)
MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data [20.31528845718877]
大規模言語モデル(LLM)は、非常に高度な自然言語理解を持ち、強力な問題解決能力を示した。本稿では,新たに開発された"MathOdyssey"データセットを用いて,LLMの数学的問題解決能力について検討する。
論文参考訳（メタデータ） (2024-06-26T13:02:35Z)
Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。 LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文参考訳（メタデータ） (2024-06-18T00:44:58Z)
PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文参考訳（メタデータ） (2024-04-29T15:02:14Z)
Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文参考訳（メタデータ） (2024-01-31T18:48:20Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は比較的未調査です後方推論は前方推論の「逆」と見なすことができます性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文参考訳（メタデータ） (2023-10-03T12:03:06Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。