論文の概要: AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use
- arxiv url: http://arxiv.org/abs/2604.21590v1
- Date: Thu, 23 Apr 2026 12:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.481563
- Title: AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use
- Title(参考訳): AgenticQwen: 産業用ツール用デュアルデータフライホイールを用いた小型エージェント言語モデルのトレーニング
- Authors: Yuanjie Lyu, Chengyu Wang, Haonan Zheng, Yuanhao Yue, Junbing Yan, Ming Wang, Jun Huang,
- Abstract要約: 本稿では,マルチラウンド強化学習(RL)を用いて学習したAgenticQwenモデル群と,限られた量のオープンソースデータについて紹介する。
我々のトレーニングフレームワークは、推論RLとエージェントRLと2つのデータフライホイールを組み合わせることで、ますます困難なタスクを自動的に生成します。
これらのモデルは,複数のエージェントベンチマークにおいて高い性能を達成し,我々の産業エージェントシステムでは,探索およびデータ解析タスクにおいて,はるかに大きなモデルとのギャップを埋める。
- 参考スコア(独自算出の注目度): 13.583197273673974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern industrial applications increasingly demand language models that act as agents, capable of multi-step reasoning and tool use in real-world settings. These tasks are typically performed under strict cost and latency constraints, making small agentic models highly desirable. In this paper, we introduce the AgenticQwen family of models, trained via multi-round reinforcement learning (RL) on synthetic data and a limited amount of open-source data. Our training framework combines reasoning RL and agentic RL with dual data flywheels that automatically generate increasingly challenging tasks. The reasoning flywheel increases task difficulty by learning from errors, while the agentic flywheel expands linear workflows into multi-branch behavior trees that better reflect the decision complexity of real-world applications. We validate AgenticQwen on public benchmarks and in an industrial agent system. The models achieve strong performance on multiple agentic benchmarks, and in our industrial agent system, close the gap with much larger models on search and data analysis tasks. Model checkpoints and part of the synthetic data: https://huggingface.co/collections/alibaba-pai/agenticqwen. Data synthesis and RL training code: https://github.com/haruhi-sudo/data_synth_and_rl. The data synthesis pipeline is also integrated into EasyDistill: https://github.com/modelscope/easydistill.
- Abstract(参考訳): 現代の産業アプリケーションは、エージェントとして機能し、実世界の環境での多段階の推論とツールの使用が可能な言語モデルをますます要求している。
これらのタスクは通常、厳格なコストとレイテンシの制約の下で実行され、小さなエージェントモデルが非常に望ましい。
本稿では,合成データと限られた量のオープンソースデータに基づいて,多ラウンド強化学習(RL)によって訓練されたAgenticQwenモデルのファミリーを紹介する。
我々のトレーニングフレームワークは、推論RLとエージェントRLと2つのデータフライホイールを組み合わせることで、ますます困難なタスクを自動的に生成します。
推論フライホイールは、エラーから学習することでタスクの難易度を高める一方、エージェントフライホイールは、線形ワークフローを実世界のアプリケーションの決定複雑さを反映したマルチブランチ動作ツリーに拡張する。
我々はAgenticQwenを公開ベンチマークおよび産業エージェントシステムで検証する。
これらのモデルは,複数のエージェントベンチマークにおいて高い性能を達成し,我々の産業エージェントシステムでは,探索およびデータ解析タスクにおいて,はるかに大きなモデルとのギャップを埋める。
モデルチェックポイントと合成データの一部:https://huggingface.co/collections/alibaba-pai/agenticqwen
データ合成とRLトレーニングコード:https://github.com/haruhi-sudo/data_synth_and_rl。
データ合成パイプラインは EasyDistill: https://github.com/modelscope/easydistillにも統合されている。
関連論文リスト
- From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents [23.583947864141162]
EigenDataは階層的なマルチエージェントエンジンで、ツール基底の対話と実行可能なインスタンスごとのチェッカーを合成する。
合成データに基づいて、まずユーザモデルを微調整し、GRPOスタイルのトレーニングを適用するRLレシピを開発する。
以上の結果から,高価なアノテーションを使わずに,複雑なツールの動作をブートストラップするためのスケーラブルな経路が示唆された。
論文 参考訳(メタデータ) (2026-01-30T06:01:23Z) - Mock Worlds, Real Skills: Building Small Agentic Language Models with Synthetic Tasks, Simulated Environments, and Rubric-Based Rewards [13.784988950752195]
既存のオープンソースエージェントトレーニングデータはタスクの多様性が狭く、容易に解決できる。
現実世界のAPIには多様性がなく、大規模な強化学習のロールアウトプロセスでは不安定である。
多様なツール使用トレーニングデータを共同で合成し,完全な環境をシミュレートするフレームワークであるSynTHAGENTで,これらの課題に対処する。
論文 参考訳(メタデータ) (2026-01-30T03:43:42Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。