論文の概要: Are LLMs Better Formalizers than Solvers on Complex Problems?
- arxiv url: http://arxiv.org/abs/2505.13252v2
- Date: Fri, 19 Sep 2025 15:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:07.027747
- Title: Are LLMs Better Formalizers than Solvers on Complex Problems?
- Title(参考訳): LLMは複雑な問題の解法よりもホルマライザが優れているか?
- Authors: Rikhil Amonkar, May Lai, Ronan Le Bras, Li Zhang,
- Abstract要約: 最近の研究のトレンドは、大規模言語モデル(LLM)を形式化子として、エンドツーエンドの解決子としてではなく、使用することを提唱している。
この優位性は,実生活における制約満足度の問題に負わないことを示す。
- 参考スコア(独自算出の注目度): 9.711592497202401
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A trending line of recent work advocates for using large language models (LLMs) as formalizers instead of as end-to-end solvers for logical reasoning problems. Instead of generating the solution, the LLM generates a formal program that derives a solution via an external solver. While performance gain of the seemingly scalable LLM-as-formalizer over the seemingly unscalable LLM-as-solver has been widely reported, we show that this superiority does not hold on real-life constraint satisfaction problems. On 4 domains, we systematically evaluate 6 LLMs including 4 large reasoning models with inference-time scaling, paired with 5 pipelines including 2 types of formalism. We show that in few-shot settings, LLM-as-formalizer underperforms LLM-as-solver. While LLM-as-formalizer promises accuracy, robustness, faithfulness, and efficiency, we observe that the present LLMs do not yet deliver any of those, as their limited ability to generate formal programs leads to failure to scale with complexity, hard-coded solutions, and excessive reasoning tokens. We present our detailed analysis and actionable remedies to drive future research that improves LLM-as-formalizer.
- Abstract(参考訳): 最近の研究のトレンドは、論理的推論問題に対するエンドツーエンドの解法ではなく、大型言語モデル(LLM)を形式化子として使うことである。
解を生成する代わりに、LCMは外部の解法を通して解を導出する形式的なプログラムを生成する。
拡張性のあるLCM-as-formalizerのLCM-as-solverに対する性能向上は広く報告されているが、この優位性は実生活における制約満足度問題には当てはまらない。
4つの領域において、推論時間スケーリングを伴う4つの大推論モデルを含む6つのLLMを2種類の形式を含む5つのパイプラインと組み合わせて体系的に評価した。
LLM-as-formalizerがLLM-as-solverの性能を低下させることを示す。
LLM-as-formalizerは正確性、堅牢性、忠実性、効率性を約束するが、形式的プログラムを生成する能力に制限があるため、現在のLCMは、複雑さ、ハードコードされたソリューション、過剰な推論トークンでスケールできないため、これらをまだ提供していない。
我々は,LSM-as-formalizerの改良に向けた今後の研究を推進するために,詳細な分析と実行可能な対策について紹介する。
関連論文リスト
- Seemingly Simple Planning Problems are Computationally Challenging: The Countdown Game [26.665033202052257]
本稿では,Countdownと呼ばれるゲームを中心とした計画ベンチマークを作成する手順を提案する。
本稿では,この課題が,計画能力評価のための理想的なベンチマークと関連するデシラタの多くにどのように適合するかを論じる。
その結果、24 Game(Countdownの特殊な場合)のような他の領域とは異なり、提案した動的ベンチマークは既存のLCMベースのアプローチでは極めて困難であることが判明した。
論文 参考訳(メタデータ) (2025-08-04T21:01:03Z) - Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。
DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - Classical Planning with LLM-Generated Heuristics: Challenging the State of the Art with Python Code [8.971234046933349]
大規模言語モデル(LLM)は、計画タスクの詳細な定義を伴っても、確実に計画に失敗する。
サイズが大きくなるような配布外タスクであっても、LCMを使って正確な計画を生成する方法を示す。
論文 参考訳(メタデータ) (2025-03-24T15:50:20Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - Code Simulation as a Proxy for High-order Tasks in Large Language Models [6.71786454125056]
我々は、Large Language Models (LLM) の能力を評価するために、自然主義的および合成的推論タスクのペアを収集する。
我々は、プログラミングにおける共通構造を、自然主義的推論タスクの構成要素の1つとして活用する。
我々の貢献は、手作りの人間注記問題に対するスケーラブルな補完として、LLMの推論能力を総合的にテストすることの上に成り立っている。
論文 参考訳(メタデータ) (2025-02-05T19:30:28Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Self-planning Code Generation with Large Language Models [31.992593966465545]
本稿では,大規模言語モデルを用いた自己計画型コード生成手法を提案する。
計画段階では、モデルは意図から簡潔な解決手順と数発のプロンプトを組み合わせることを計画している。
実装フェーズでは、モデルが前のソリューションステップでガイドされたステップごとにコードを生成する。
論文 参考訳(メタデータ) (2023-03-12T15:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。