論文の概要: Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training
- arxiv url: http://arxiv.org/abs/2502.06589v1
- Date: Mon, 10 Feb 2025 15:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 18:57:51.437596
- Title: Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training
- Title(参考訳): Hephaestus: 継続的な事前学習による大規模言語モデルの基本的なエージェント能力の向上
- Authors: Yuchen Zhuang, Jingfeng Yang, Haoming Jiang, Xin Liu, Kewei Cheng, Sanket Lokegaonkar, Yifan Gao, Qing Ping, Tianyi Liu, Binxuan Huang, Zheng Li, Zhengyang Wang, Pei Chen, Ruijie Wang, Rongzhi Zhang, Nasser Zalmout, Priyanka Nigam, Bing Yin, Chao Zhang,
- Abstract要約: Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。
Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。
Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
- 参考スコア(独自算出の注目度): 69.13064064991552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the scarcity of agent-oriented pre-training data, LLM-based autonomous agents typically rely on complex prompting or extensive fine-tuning, which often fails to introduce new capabilities while preserving strong generalizability. We introduce Hephaestus-Forge, the first large-scale pre-training corpus designed to enhance the fundamental capabilities of LLM agents in API function calling, intrinsic reasoning and planning, and adapting to environmental feedback. Hephaestus-Forge comprises 103B agent-specific data encompassing 76,537 APIs, including both tool documentation to introduce knowledge of API functions and function calling trajectories to strengthen intrinsic reasoning. To explore effective training protocols, we investigate scaling laws to identify the optimal recipe in data mixing ratios. By continual pre-training on Hephaestus-Forge, Hephaestus outperforms small- to medium-scale open-source LLMs and rivals commercial LLMs on three agent benchmarks, demonstrating the effectiveness of our pre-training corpus in enhancing fundamental agentic capabilities and generalization of LLMs to new tasks or environments.
- Abstract(参考訳): エージェント指向の事前学習データが不足しているため、LSMベースの自律エージェントは通常、複雑なプロンプトや広範囲な微調整に依存しており、高い一般化性を維持しながら、新しい機能の導入に失敗することが多い。
Hephaestus-Forgeは、API関数呼び出し、本質的な推論と計画、環境フィードバックへの適応において、LLMエージェントの基本的な能力を高めるために設計された最初の大規模事前学習コーパスである。
Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。
そこで本研究では,データ混合比の最適レシピを特定するためのスケーリング法則について検討する。
Hephaestus-Forge上でのトレーニングを継続することにより、Hephaestusは3つのエージェントベンチマークにおいて、小規模から中規模のオープンソースLLMと商用LLMを比べ、基本的なエージェント能力の確立とLLMの新たなタスクや環境への一般化における事前学習コーパスの有効性を実証する。
関連論文リスト
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - MAGELLAN: Metacognitive predictions of learning progress guide autotelic LLM agents in large goal spaces [30.231701007708146]
オープンエンド学習エージェントは、広大な可能性空間における目標を効率的に優先順位付けする必要がある。
従来のアプローチでは、広範なサンプリングを必要とするか、不安定な専門家定義の目標グループ化に依存している。
LLMエージェントがオンライン上で能力とLPを予測することを学習するメタ認知フレームワークであるMAGELLANを紹介した。
論文 参考訳(メタデータ) (2025-02-11T17:08:00Z) - Training Agents with Weakly Supervised Feedback from Large Language Models [19.216542820742607]
本稿では,批判的LSMからの弱教師付き信号を用いたLSMエージェントの新しいトレーニング手法を提案する。
エージェントは反復的に訓練され、まず環境相互作用を通じて軌道を生成する。
API-bankデータセットのテストでは、エージェントの能力とGPT-4に匹敵するパフォーマンスが一貫して改善されている。
論文 参考訳(メタデータ) (2024-11-29T08:47:04Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
よりシンプルで知識集約的なタスクでは記憶が大きな役割を担い、一方、一般化はより困難で推論に基づくタスクでは鍵となる。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - ExpeL: LLM Agents Are Experiential Learners [57.13685954854463]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。