論文の概要: DSMentor: Enhancing Data Science Agents with Curriculum Learning and Online Knowledge Accumulation
- arxiv url: http://arxiv.org/abs/2505.14163v1
- Date: Tue, 20 May 2025 10:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.056238
- Title: DSMentor: Enhancing Data Science Agents with Curriculum Learning and Online Knowledge Accumulation
- Title(参考訳): DSMentor: カリキュラム学習とオンライン知識蓄積によるデータサイエンスエージェントの強化
- Authors: He Wang, Alexander Hanbo Li, Yiqun Hu, Sheng Zhang, Hideo Kobayashi, Jiani Zhang, Henry Zhu, Chung-Wei Hang, Patrick Ng,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、複雑なデータサイエンス問題を解決するためのコードを生成する上で、有望な性能を示している。
我々は, LLMエージェントの性能を向上させるために, DSMentorと呼ばれる新しい推論時間最適化フレームワークを開発した。
我々の研究は、推論中に知識を蓄積し活用するための効果的な戦略を開発することの重要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 59.79833777420334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents have shown promising performance in generating code for solving complex data science problems. Recent studies primarily focus on enhancing in-context learning through improved search, sampling, and planning techniques, while overlooking the importance of the order in which problems are tackled during inference. In this work, we develop a novel inference-time optimization framework, referred to as DSMentor, which leverages curriculum learning -- a strategy that introduces simpler task first and progressively moves to more complex ones as the learner improves -- to enhance LLM agent performance in challenging data science tasks. Our mentor-guided framework organizes data science tasks in order of increasing difficulty and incorporates a growing long-term memory to retain prior experiences, guiding the agent's learning progression and enabling more effective utilization of accumulated knowledge. We evaluate DSMentor through extensive experiments on DSEval and QRData benchmarks. Experiments show that DSMentor using Claude-3.5-Sonnet improves the pass rate by up to 5.2% on DSEval and QRData compared to baseline agents. Furthermore, DSMentor demonstrates stronger causal reasoning ability, improving the pass rate by 8.8% on the causality problems compared to GPT-4 using Program-of-Thoughts prompts. Our work underscores the importance of developing effective strategies for accumulating and utilizing knowledge during inference, mirroring the human learning process and opening new avenues for improving LLM performance through curriculum-based inference optimization.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複雑なデータサイエンス問題を解決するためのコードを生成する上で、有望な性能を示している。
近年の研究では,探索・サンプリング・計画手法の改善による文脈内学習の強化に焦点が当てられ,推論時に問題に取り組む順序の重要性が注目されている。
本研究では,DSMentorと呼ばれる新しい推論時間最適化フレームワークを開発し,より単純なタスクをまず導入し,学習者が改善するにつれてより複雑なタスクへと段階的に移行し,データサイエンスの課題に挑戦する上でのLCMエージェントの性能向上を図る。
我々のメンター誘導型フレームワークは、困難を増すためにデータサイエンスタスクを編成し、学習の進行を誘導し、蓄積した知識をより効果的に活用できるようにする。
我々はDSEvalとQRDataベンチマークの広範な実験を通じてDSMentorを評価した。
実験により、Claude-3.5-Sonnetを使用するDSMentorは、ベースラインエージェントと比較して、DSEvalとQRDataのパスレートを最大5.2%改善することが示された。
さらに、DSMentorはより強力な因果推論能力を示し、Program-of-Thoughtsプロンプトを用いたGPT-4と比較して、因果問題を8.8%改善した。
本研究は,推論中に知識を蓄積・活用し,人間の学習過程を反映し,カリキュラムベースの推論最適化によるLLM性能向上のための新たな道を開くための効果的な戦略開発の重要性を明らかにするものである。
関連論文リスト
- How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。
本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。
私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文 参考訳(メタデータ) (2025-04-01T14:18:38Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
本稿では,効率的なモデル適応によりRAGシステムを強化する自己教師型フレームワークKBAlignを提案する。
私たちのキーとなる洞察は、2つの革新的なメカニズムを通じて、モデルの本質的な能力を知識の整合性に活用することです。
KBAlign は GPT-4 による適応によって得られる性能向上の90%を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - AssistRAG: Boosting the Potential of Large Language Models with an Intelligent Information Assistant [23.366991558162695]
大規模言語モデルは「幻覚」として知られる事実的に誤った情報を生成する
これらの課題に対処するため、我々はAssistRAG(AssistRAG)を用いた検索生成支援システムを提案する。
このアシスタントは、ツールの使用、アクションの実行、メモリ構築、プラン仕様を通じて、メモリと知識を管理する。
論文 参考訳(メタデータ) (2024-11-11T09:03:52Z) - RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。
既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。
RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文 参考訳(メタデータ) (2024-09-18T20:03:32Z) - CEM: A Data-Efficient Method for Large Language Models to Continue Evolving From Mistakes [36.14056870453356]
大きな言語モデルを維持し、その欠点に対処するためには、継続的な学習が不可欠です。
本稿では,CPTデータ収集を目的としたデータ効率の高い手法であるCEM法を提案する。
実験の結果、CEMはドメイン内QAタスクとドメイン外QAタスクの両方で複数のモデルの性能を大幅に向上させ、最大29.63%のゲインを達成している。
論文 参考訳(メタデータ) (2024-04-11T17:44:56Z) - LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。
宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。
我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-06-05T23:32:26Z) - KnowRU: Knowledge Reusing via Knowledge Distillation in Multi-agent
Reinforcement Learning [16.167201058368303]
深層強化学習(RL)アルゴリズムはマルチエージェント領域において劇的に進歩している。
この問題を解決するには、歴史的経験の効率的な活用が不可欠です。
知識再利用のための「KnowRU」という手法を提案する。
論文 参考訳(メタデータ) (2021-03-27T12:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。