論文の概要: FT-Dojo: Towards Autonomous LLM Fine-Tuning with Language Agents
- arxiv url: http://arxiv.org/abs/2603.01712v1
- Date: Mon, 02 Mar 2026 10:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.821076
- Title: FT-Dojo: Towards Autonomous LLM Fine-Tuning with Language Agents
- Title(参考訳): FT-Dojo: 言語エージェントによる自律LLMファインチューニングを目指して
- Authors: Qizheng Li, Yifei Zhang, Xiao Yang, Xu Yang, Zhuo Wang, Weiqing Liu, Jiang Bian,
- Abstract要約: FT-Dojoは5つのドメインにわたる13のタスクからなる対話型環境である。
我々は、評価駆動フィードバックを活用することで、人間の専門家を模倣する自律システムFT-Agentを開発した。
- 参考スコア(独自算出の注目度): 25.60249598832918
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-tuning large language models for vertical domains remains a labor-intensive and expensive process, requiring domain experts to curate data, configure training, and iteratively diagnose model behavior. Despite growing interest in autonomous machine learning, no prior work has tackled end-to-end LLM fine-tuning with agents. Can LLM-based agents automate this complete process? We frame this as a substantially open problem: agents must navigate an open-ended search space spanning data curation from diverse data sources, processing with complex tools, building a training pipeline, and iteratively refining their approach based on evaluation outcomes in rapidly growing logs--an overall scenario far more intricate than existing benchmarks. To study this question, we introduce FT-Dojo, an interactive environment comprising 13 tasks across 5 domains. We further develop FT-Agent, an autonomous system that mirrors human experts by leveraging evaluation-driven feedback to iteratively diagnose failures and refine fine-tuning strategies. Experiments on FT-Dojo demonstrate that purpose-built fine-tuning agents significantly outperform general-purpose alternatives, with FT-Agent achieving the best performance on 10 out of 13 tasks across all five domains. Ablations show that the approach generalizes effectively to 3B models, with additional insights on data scaling trade-offs and backbone sensitivity. Case analyses reveal that agents can recover from failures through cumulative learning from historical experience, while also exposing fundamental limitations in causal reasoning--highlighting both the promise and current boundaries of autonomous LLM fine-tuning.
- Abstract(参考訳): 垂直ドメインのための微調整された大きな言語モデルは、依然として労働集約的で高価なプロセスであり、ドメインの専門家はデータをキュレートし、トレーニングを設定し、モデルの振る舞いを反復的に診断する必要がある。
自律的な機械学習への関心が高まっているにもかかわらず、エージェントによるエンドツーエンドのLLM微調整に先行する作業は行われていない。
LLMベースのエージェントは、この完全なプロセスを自動化することができるか?
エージェントは、さまざまなデータソースからデータキュレーションを網羅したオープンな検索スペースをナビゲートし、複雑なツールで処理し、トレーニングパイプラインを構築し、急速に成長するログの評価結果に基づいて、そのアプローチを反復的に改善する必要があります。
そこで本研究では,5つの領域にまたがる13のタスクからなる対話型環境であるFT-Dojoを紹介する。
FT-Agentは、評価駆動によるフィードバックを利用して、失敗を反復的に診断し、微調整戦略を洗練することによって、人間の専門家を反映する自律システムである。
FT-Dojoの実験では、目的に構築された微調整エージェントは汎用的な代替よりも大幅に優れており、FT-Agentは5つのドメインにまたがる13のタスクのうち10のタスクで最高のパフォーマンスを達成している。
アブレーションは、このアプローチがデータスケーリングのトレードオフとバックボーン感度に関する洞察を伴って、3Bモデルに効果的に一般化することを示している。
事例分析では、エージェントは歴史的経験から累積的な学習を通じて障害から回復でき、また因果推論の根本的な制限を露呈する。
関連論文リスト
- Experience-Driven Multi-Agent Systems Are Training-free Context-aware Earth Observers [27.817039954088315]
ツールレベルの専門知識を学習するための自己進化型マルチエージェントシステムである textbfGeoEvolver を紹介する。
GeoEvolverはエンドツーエンドのタスクの成功を継続的に改善し、複数のバックボーンで平均12%向上することを示す。
論文 参考訳(メタデータ) (2026-01-30T15:11:07Z) - ReX-MLE: The Autonomous Agent Benchmark for Medical Imaging Challenges [5.886200278450183]
ReX-MLE(ReX-MLE)は、ハイインパクトな医用イメージングコンペティションから導かれる20の課題のベンチマークである。
以前のベンチマークとは異なり、ReX-MLEは完全なエンドツーエンドを評価し、エージェントはデータ前処理、モデルトレーニング、サブミッションを独立して管理する必要がある。
ほとんどの応募は、人間専門家と比較して0パーセントのランクでランク付けされます。
論文 参考訳(メタデータ) (2025-12-19T17:44:40Z) - A Survey of Data Agents: Emerging Paradigm or Overstated Hype? [66.1526688475023]
現在「データエージェント」は用語的曖昧さと不整合性に悩まされている。
この調査では、データエージェントのための最初の体系的な階層型分類を紹介した。
プロアクティブな生成データエージェントの出現を想定する、先見的なロードマップで締めくくります。
論文 参考訳(メタデータ) (2025-10-27T17:54:07Z) - Agent Fine-tuning through Distillation for Domain-specific LLMs in Microdomains [6.323778761045108]
エージェント型大規模言語モデル (LLM) は, 外部環境との自律的対話において注目されている。
本稿では,日立のJP1マイクロドメインにおけるドメイン適応のためのエージェント微調整について検討する。
論文 参考訳(メタデータ) (2025-10-01T04:04:53Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents [3.6117068575553595]
トレーニング後の完全なパイプラインを自律的に構築し、最適化するフレームワークであるLaMDAgentを紹介します。
LaMDAgentは、ツールの使用精度を9.0ポイント向上し、命令追従機能を保持する。
従来の人間主導の探査で見落とされがちな効果的なポストトレーニング戦略を明らかにする。
論文 参考訳(メタデータ) (2025-05-28T04:30:51Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - TAMO: Fine-Grained Root Cause Analysis via Tool-Assisted LLM Agent with Multi-Modality Observation Data in Cloud-Native Systems [42.50432360919637]
クラウドネイティブシステムにおける大規模言語モデル(LLM)による根本原因分析(RCA)は、現代のソフトウェア運用とメンテナンスにおいて重要なトピックとなっている。
既存のLLMベースのアプローチでは、マルチモード入力制約、コンテキストウィンドウ制限、動的依存グラフの3つの大きな課題に直面している。
細粒度RCA,すなわちTAMOのための多モード観測データを用いたツール支援LDMエージェントを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:50:48Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。