論文の概要: TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration
- arxiv url: http://arxiv.org/abs/2604.14116v2
- Date: Wed, 22 Apr 2026 07:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.246177
- Title: TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration
- Title(参考訳): TREX:エージェント駆動ツリーベースの探索によるLLMファインチューニングの自動化
- Authors: Zerun Ma, Guoqiang Wang, Xinchen Xie, Yicheng Chen, He Du, Bowen Li, Yanan Sun, Wenran Liu, Kai Chen, Yining Li,
- Abstract要約: 大規模言語モデル(LLM)は、独立した科学的タスクを実行するためにAI研究エージェントに権限を与えている。
本稿では,LLMトレーニングライフサイクル全体を自動化したマルチエージェントシステムTREXを紹介する。
- 参考スコア(独自算出の注目度): 31.598039827972727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have empowered AI research agents to perform isolated scientific tasks, automating complex, real-world workflows, such as LLM training, remains a significant challenge. In this paper, we introduce TREX, a multi-agent system that automates the entire LLM training life-cycle. By orchestrating collaboration between two core modules-the Researcher and the Executor-the system seamlessly performs requirement analysis, open-domain literature and data research, formulation of training strategies, preparation of data recipes, and model training and evaluation. The multi-round experimental process is modeled as a search tree, enabling the system to efficiently plan exploration paths, reuse historical results, and distill high-level insights from iterative trials. To evaluate the capability of automated LLM training, we construct FT-Bench, a benchmark comprising 10 tasks derived from real-world scenarios, ranging from optimizing fundamental model capabilities to enhancing performance on domain-specific tasks. Experimental results demonstrate that the TREX agent consistently optimizes model performance on target tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、独立した科学的タスクを実行するためにAI研究エージェントに権限を与えてきたが、LLMトレーニングのような複雑な現実世界のワークフローを自動化することは、依然として大きな課題である。
本稿では,LLMトレーニングライフサイクル全体を自動化したマルチエージェントシステムTREXを紹介する。
研究者と実行者という2つのコアモジュール間のコラボレーションを組織することにより、要求分析、オープンドメインの文献とデータ研究、トレーニング戦略の定式化、データレシピの作成、モデルトレーニングと評価をシームレスに行う。
マルチラウンド実験プロセスは探索木としてモデル化されており、探索経路を効率的に計画し、過去の結果を再利用し、反復的な試行から高レベルの洞察を蒸留することができる。
実世界のシナリオから派生した10のタスクからなるベンチマークであるFT-Benchを,基本モデル能力の最適化からドメイン固有のタスクの性能向上まで,自動LLMトレーニングの能力を評価するために構築した。
実験の結果,TREXエージェントは目標タスクのモデル性能を常に最適化することがわかった。
関連論文リスト
- LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents [3.6117068575553595]
トレーニング後の完全なパイプラインを自律的に構築し、最適化するフレームワークであるLaMDAgentを紹介します。
LaMDAgentは、ツールの使用精度を9.0ポイント向上し、命令追従機能を保持する。
従来の人間主導の探査で見落とされがちな効果的なポストトレーニング戦略を明らかにする。
論文 参考訳(メタデータ) (2025-05-28T04:30:51Z) - MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Are You Being Tracked? Discover the Power of Zero-Shot Trajectory
Tracing with LLMs! [3.844253028598048]
LLMTrackは、ゼロショット軌道認識にLLMをどのように活用できるかを示すモデルである。
本研究では,屋内シナリオと屋外シナリオを特徴とする異なる軌跡を用いて,現実のデータセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-03-10T12:50:35Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。