論文の概要: Chasing Progress, Not Perfection: Revisiting Strategies for End-to-End LLM Plan Generation
- arxiv url: http://arxiv.org/abs/2412.10675v1
- Date: Sat, 14 Dec 2024 04:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:12.286405
- Title: Chasing Progress, Not Perfection: Revisiting Strategies for End-to-End LLM Plan Generation
- Title(参考訳): 完璧でないチャットの進展:エンド・ツー・エンド LLM 計画の見直し
- Authors: Sukai Huang, Trevor Cohn, Nir Lipovetzky,
- Abstract要約: 本研究では、エンド・ツー・エンドのLSMプランナを開発することで、最近の戦略を再評価する。
プランニングインスタンスのコーパス上での微調整 LLM は、ロバストなプランニングスキルに繋がらないことがわかった。
Chain-of-Thoughtを含む様々な戦略は、計画の実行可能性を高める。
- 参考スコア(独自算出の注目度): 34.636688162807836
- License:
- Abstract: The capability of Large Language Models (LLMs) to plan remains a topic of debate. Some critics argue that strategies to boost LLMs' reasoning skills are ineffective in planning tasks, while others report strong outcomes merely from training models on a planning corpus. This study reassesses recent strategies by developing an end-to-end LLM planner and employing diverse metrics for a thorough evaluation. We find that merely fine-tuning LLMs on a corpus of planning instances does not lead to robust planning skills, as indicated by poor performance on out-of-distribution test sets. At the same time, we find that various strategies, including Chain-of-Thought, do enhance the probability of a plan being executable. This indicates progress towards better plan quality, despite not directly enhancing the final validity rate. Among the strategies we evaluated, reinforcement learning with our novel `Longest Contiguous Common Subsequence' reward emerged as the most effective, contributing to both plan validity and executability. Overall, our research addresses key misconceptions in the LLM-planning literature; we validate incremental progress in plan executability, although plan validity remains a challenge. Hence, future strategies should focus on both these aspects, drawing insights from our findings.
- Abstract(参考訳): 計画のためのLLM(Large Language Models)の能力は依然として議論の的となっている。
一部の批評家は、LSMの推論スキルを高める戦略は計画作業では効果がないと論じる一方で、計画コーパスのトレーニングモデルから強い成果を報告する者もいる。
本研究は、エンド・ツー・エンドのLCMプランナを開発し、多様なメトリクスを徹底的に評価することで、最近の戦略を再評価する。
計画インスタンスのコーパス上での微調整 LLM は,配布外テストセットの性能が劣るなど,ロバストな計画スキルに繋がらないことが判明した。
同時に、Chain-of-Thoughtを含む様々な戦略が計画の実行可能性を高めることを発見した。
これは、最終的な妥当性が直接的に向上していないにもかかわらず、より良い計画品質への進歩を示している。
評価した戦略の中で,我々の小説『Longest Contiguous Common Subsequence』による強化学習が最も効果的であり,計画の妥当性と実行可能性の両方に寄与した。
本研究は、計画実行可能性の漸進的な進歩を実証するが、計画の妥当性は依然として課題である。
したがって、今後の戦略は、これらの2つの側面に焦点を合わせ、私たちの発見から洞察を引き出すべきである。
関連論文リスト
- LASP: Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning [7.36760703426119]
この調査は、言語モデルで計画する際の既存の課題を強調することを目的としている。
実施環境、最適なスケジューリング、競争と協力のゲーム、タスクの分解、推論、計画といった重要な分野に焦点を当てている。
論文 参考訳(メタデータ) (2024-09-03T11:39:52Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models [15.874604623294427]
マルチパス計画問題には、アウトライン、情報収集、計画といった複数の相互接続ステージが含まれる。
既存の推論アプローチは、この複雑なタスクを効果的に解決するのに苦労しています。
本研究は,LLMエージェントのためのヒューマンライクな計画フレームワークを開発することで,この問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-05-28T14:13:32Z) - Large Language Models are Learnable Planners for Long-Term Recommendation [59.167795967630305]
即時利益と長期利益の両方の計画が、勧告においてますます重要になる。
既存手法では,長期的推薦に対する累積報酬を最大化することにより,計画能力の学習に強化学習を適用している。
本稿では,長期的推薦のために,大規模言語モデルのスパースデータよりも優れた計画能力を活用することを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:49:56Z) - What's the Plan? Evaluating and Developing Planning-Aware Techniques for Language Models [7.216683826556268]
大きな言語モデル(LLM)は、計画機能を必要とするアプリケーションにますます使われています。
我々は,新しいハイブリッド・メソドであるSimPlanを紹介し,その性能を新たな挑戦的な設定で評価する。
論文 参考訳(メタデータ) (2024-02-18T07:42:49Z) - Understanding the planning of LLM agents: A survey [98.82513390811148]
本調査では, LLMをベースとしたエージェント計画の体系的考察を行い, 計画能力の向上を目的とした最近の成果について報告する。
各方向について総合的な分析を行い、研究分野におけるさらなる課題について論じる。
論文 参考訳(メタデータ) (2024-02-05T04:25:24Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - PlanBench: An Extensible Benchmark for Evaluating Large Language Models
on Planning and Reasoning about Change [34.93870615625937]
PlanBenchは、自動計画コミュニティで使用されるドメインの種類に基づいたベンチマークスイートである。
PlanBenchはタスクドメインと特定の計画機能の両方に十分な多様性を提供します。
論文 参考訳(メタデータ) (2022-06-21T16:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。