論文の概要: EvoCurr: Self-evolving Curriculum with Behavior Code Generation for Complex Decision-making
- arxiv url: http://arxiv.org/abs/2508.09586v2
- Date: Wed, 20 Aug 2025 07:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 12:38:45.389384
- Title: EvoCurr: Self-evolving Curriculum with Behavior Code Generation for Complex Decision-making
- Title(参考訳): EvoCurr: 複雑な意思決定のための行動コード生成による自己進化型カリキュラム
- Authors: Yang Cheng, Zilai Wang, Weiyu Ma, Wenhui Zhu, Yue Deng, Jian Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、プログラミング、計画、意思決定など、様々な領域にまたがる顕著な能力を示している。
本稿では,新たな自己進化型フレームワークであるEvoCurrを提案する。
本手法は, 直接解法に比べて, タスク成功率と解解効率を著しく向上することを示す。
- 参考スコア(独自算出の注目度): 9.228654390917123
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, including programming, planning, and decision-making. However, their performance often degrades when faced with highly complex problem instances that require deep reasoning over long horizons. In such cases, direct problem-solving approaches can lead to inefficiency or failure due to the lack of structured intermediate guidance. To address this, we propose a novel self-evolve framework, EvoCurr, in which a dedicated curriculum-generation LLM constructs a sequence of problem instances with gradually increasing difficulty, tailored to the solver LLM's learning progress. The curriculum dynamically adapts easing challenges when the solver struggles and escalating them when success is consistent, thus maintaining an optimal learning trajectory. This approach enables the solver LLM, implemented as a code-generation model producing Python decision-tree scripts, to progressively acquire the skills needed for complex decision-making tasks. Experimental results on challenging decision-making benchmarks show that our method significantly improves task success rates and solution efficiency compared to direct-solving baselines. These findings suggest that LLM-driven curriculum learning holds strong potential for enhancing automated reasoning in real-world, high-complexity domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プログラミング、計画、意思決定など、様々な領域にまたがる顕著な能力を示している。
しかし、それらの性能は、長い地平線上で深い推論を必要とする非常に複雑な問題インスタンスに直面した時に劣化することが多い。
このような場合、直接的な問題解決アプローチは、構造化中間ガイダンスが欠如しているため、非効率性や失敗につながる可能性がある。
そこで本研究では,LLMの学習過程に合わせた,難易度が徐々に増大する問題事例の系列を,専用カリキュラム生成型LLMで構築する,新たな自己進化型フレームワークであるEvoCurrを提案する。
このカリキュラムは、解決者が苦労したときの課題の緩和と成功時のエスカレーションを動的に適応し、最適な学習軌道を維持する。
このアプローチにより、Python決定ツリースクリプトを生成するコード生成モデルとして実装されたLLMが、複雑な意思決定タスクに必要なスキルを段階的に取得することが可能になる。
課題決定ベンチマークによる実験結果から,本手法は直解ベースラインに比べてタスク成功率と解解効率を著しく向上することが示された。
これらの結果は,LLMによるカリキュラム学習が,実世界,高複雑性領域における自動推論の強化に強い可能性を持っていることを示唆している。
関連論文リスト
- PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - Learn to Think: Bootstrapping LLM Reasoning Capability Through Graph Representation Learning [19.75678229122211]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
それらは、訓練のための高い計算コストや複雑な推論問題の解決における制限など、依然として重大な課題に直面している。
より柔軟で適応的な推論機能を実現するために,グラフ学習を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-09T02:51:22Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
BloomWiseは認知にインスパイアされた大規模言語モデル(LLM)のプロンプト技術である
解法をより説明しやすいものにしながら、数学的問題解決におけるLLMの性能を高めるように設計されている。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - DiLA: Enhancing LLM Tool Learning with Differential Logic Layer [11.810200077863172]
本稿では,ネットワーク層の前方・後方通過に論理的制約を組み込むディファレンシャル・ロジック・レイヤ支援言語モデリング(DiLA)手法を提案する。
2つの古典的推論問題に対するDiLAの性能評価を行い、既存のプロンプトベースおよびソルバ支援アプローチに対する一貫した性能を実証した。
論文 参考訳(メタデータ) (2024-02-19T07:38:57Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [84.31119464141631]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。