論文の概要: CodePlan: Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning
- arxiv url: http://arxiv.org/abs/2409.12452v1
- Date: Fri, 4 Oct 2024 04:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:52:37.413782
- Title: CodePlan: Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning
- Title(参考訳): CodePlan: コード形式計画のスケールアップによる大規模ランガウジモデルにおける推論可能性のアンロック
- Authors: Jiaxin Wen, Jian Guan, Hongning Wang, Wei Wu, Minlie Huang,
- Abstract要約: 我々はCODEPLANを紹介した。CODEPLANは大規模言語モデルに対して,コード形式の計画の生成と追跡を可能にするスケーラブルなパラダイムである。
CODEPLANは、洗練された推論に固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
既存のコーパスから,コード・フォーム・プランと標準のプロンプト・レスポンス・ペアを統合する2Mサンプルの大規模データセットを構築した。
トレーニングと推論の両方のオーバーヘッドが最小限であるため、CODEPLANは直接生成する応答に比べて25.1%の相対的な改善を実現している。
- 参考スコア(独自算出の注目度): 94.76546523689113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable success of large language models (LLMs) on traditional natural language processing tasks, their planning ability remains a critical bottleneck in tackling complex multi-step reasoning tasks. Existing approaches mainly rely on prompting or task-specific fine-tuning, often suffering from weak robustness and cross-task generalization. To address the limitation, we introduce CODEPLAN, a scalable paradigm that empowers LLMs to generate and follow code-form plans pseudocode that outlines high-level, structured reasoning processes. By leveraging the structured and versatile nature of code, CODEPLAN effectively captures the rich semantics and control flows inherent to sophisticated reasoning. Importantly, CODEPLAN allows the automatic extraction of code-form plans from massive, wide-ranging text corpora without the need for curated, task-specific datasets. This enables it to scale up efficiently and improve reasoning capabilities across diverse scenarios. To train CODEPLAN, we construct a large-scale dataset of 2M examples that integrate code-form plans with standard prompt-response pairs from existing corpora. With minimal computation overhead during both training and inference, CODEPLAN achieves a 25.1% relative improvement compared with directly generating responses, averaged across 13 challenging multi-step reasoning benchmarks, spanning mathematical reasoning, symbolic reasoning, instruction-following, multi-hop QA, and decision-making tasks. Further analysis reveals CODEPLAN's increasing performance gains on more complex reasoning tasks, as well as significant data efficiency thanks to its generalization ability.
- Abstract(参考訳): 従来の自然言語処理タスクにおける大規模言語モデル(LLM)の顕著な成功にもかかわらず、その計画能力は複雑な多段階推論タスクに取り組む上で重要なボトルネックとなっている。
既存のアプローチは主にプロンプトやタスク固有の微調整に依存しており、しばしば弱い堅牢性とクロスタスクの一般化に悩まされている。
この制限に対処するため,私たちは,高度で構造化された推論プロセスの概要を概説したコード形式計画の擬似コードの生成と追跡を可能にする,スケーラブルなパラダイムであるCODEPLANを紹介した。
CODEPLANは、構造化され汎用的なコードの性質を活用することで、洗練された推論に固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
重要な点として、CODEPLANは、大規模で広範囲なテキストコーパスから、修正されたタスク固有のデータセットを必要とせずに、コード形式のプランを自動的に抽出することを可能にする。
これにより、効率よくスケールアップし、さまざまなシナリオにおける推論機能を改善することができる。
CODEPLANをトレーニングするために,既存のコーパスから標準のプロンプト応答ペアとコード形式計画を統合する2Mサンプルの大規模データセットを構築した。
CODEPLANは、トレーニングと推論の間、計算オーバーヘッドが最小限に抑えられ、直接生成する応答と比較して25.1%の改善を実現し、数学的推論、記号的推論、命令追従、マルチホップQA、意思決定タスクにまたがる13の挑戦的なマルチステップ推論ベンチマークで平均化されている。
さらなる分析により、CODEPLANはより複雑な推論タスクの性能向上と、その一般化能力によるデータ効率の向上を明らかにしている。
関連論文リスト
- Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Non-myopic Generation of Language Models for Reasoning and Planning [45.75146679449453]
本稿では,モデル予測制御を利用した予測復号化手法を提案する。
我々の実験では、数学、コーディング、エージェントの幅広いタスクにおいて、大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-10-22T17:13:38Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Scaling Up Natural Language Understanding for Multi-Robots Through the Lens of Hierarchy [8.180994118420053]
長期計画には不確実性蓄積、計算複雑性、遅延報酬、不完全情報といった課題が伴う。
本研究では,タスク階層を人間の指示から活用し,マルチロボット計画を容易にする手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T14:46:13Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [89.68433168477227]
LLM(Large Language Model)ベースのエージェントは注目され、ますます人気が高まっている。
本稿では,LLMの学習指導による計画能力の向上について検討する。
この制限に対処するために,多様な環境の自動合成と段階的な計画課題について検討する。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning [10.704716790096498]
大規模言語モデル(LLM)は、技術やシステム設計の推進によって達成された、目覚ましいタスク解決能力を示している。
本稿では,LLMの計画能力に及ぼす微調整の影響について検討する。
計画領域におけるファインチューニングのサンプル効率を向上させるために,MDFT(Maximum Diversity Fine-Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-06-15T03:06:14Z) - Consolidating Trees of Robotic Plans Generated Using Large Language
Models to Improve Reliability [6.4111574364474215]
LLM(Large Language Models)の固有の確率論的性質は、予測不可能な要素を導入している。
本稿では,多様な現実の要求やシナリオに対して,適切なロボットタスク計画を作成することを目的とした,革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T18:01:59Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。