論文の概要: Mock Worlds, Real Skills: Building Small Agentic Language Models with Synthetic Tasks, Simulated Environments, and Rubric-Based Rewards
- arxiv url: http://arxiv.org/abs/2601.22511v1
- Date: Fri, 30 Jan 2026 03:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.19792
- Title: Mock Worlds, Real Skills: Building Small Agentic Language Models with Synthetic Tasks, Simulated Environments, and Rubric-Based Rewards
- Title(参考訳): モックワールド, リアルスキル: シンセティックタスク, シミュレーション環境, ルーブリックベースリワードによる小さなエージェント言語モデルの構築
- Authors: Yuan-Jay Lü, Chengyu Wang, Lei Shen, Jun Huang, Tong Xu,
- Abstract要約: 既存のオープンソースエージェントトレーニングデータはタスクの多様性が狭く、容易に解決できる。
現実世界のAPIには多様性がなく、大規模な強化学習のロールアウトプロセスでは不安定である。
多様なツール使用トレーニングデータを共同で合成し,完全な環境をシミュレートするフレームワークであるSynTHAGENTで,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 13.784988950752195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small LLMs often struggle to match the agentic capabilities of large, costly models. While reinforcement learning can help, progress has been limited by two structural bottlenecks: existing open-source agentic training data are narrow in task variety and easily solved; real-world APIs lack diversity and are unstable for large-scale reinforcement learning rollout processes. We address these challenges with SYNTHAGENT, a framework that jointly synthesizes diverse tool-use training data and simulates complete environments. Specifically, a strong teacher model creates novel tasks and tool ecosystems, then rewrites them into intentionally underspecified instructions. This compels agents to actively query users for missing details. When handling synthetic tasks, an LLM-based user simulator provides user-private information, while a mock tool system delivers stable tool responses. For rewards, task-level rubrics are constructed based on required subgoals, user-agent interactions, and forbidden behaviors. Across 14 challenging datasets in math, search, and tool use, models trained on our synthetic data achieve substantial gains, with small models outperforming larger baselines.
- Abstract(参考訳): 小さなLLMは、大型で高価なモデルのエージェント能力に匹敵するのにしばしば苦労する。
既存のオープンソースのエージェントトレーニングデータはタスクの多様性が狭く、簡単に解決できる。現実世界のAPIには多様性がなく、大規模な強化学習ロールアウトプロセスでは不安定である。
多様なツール使用トレーニングデータを共同で合成し,完全な環境をシミュレートするフレームワークであるSynTHAGENTで,これらの課題に対処する。
具体的には、強力な教師モデルは、新しいタスクとツールのエコシステムを作成し、意図しない指示に書き直します。
これはエージェントを補完し、欠落した詳細をユーザーに積極的に問い合わせる。
合成タスクを扱う場合、LLMベースのユーザシミュレータがユーザプライエタリな情報を提供し、モックツールシステムが安定したツール応答を提供する。
報酬のために、タスクレベルのルーブリックは、必要なサブゴール、ユーザエージェントのインタラクション、禁止された振る舞いに基づいて構築される。
数学、検索、ツール使用における14の挑戦的なデータセットのうち、我々の合成データに基づいてトレーニングされたモデルは、より大規模なベースラインを上回る小さなモデルで、大幅に向上する。
関連論文リスト
- FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling [39.45732462111156]
本稿では,FunReason-MTを提案する。FunReason-MTは,実世界のマルチターンツール利用のための新しいデータ合成フレームワークである。
FunReason-MTは、環境-APIグラフ相互作用を用いて、マルチターンFCデータの複雑さ障壁を解決する。
FunReason-MT生成データに基づいて構築された4Bモデルは、同等サイズのモデル間で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T17:15:26Z) - Advancing SLM Tool-Use Capability using Reinforcement Learning [0.0]
ツールを効果的に利用できることは、LLM(Large Language Models)の定義機能となり、外部データや内部リソースにアクセスできるようになった。
小言語モデル(SLM)は、特にリソース制約のある設定において、ツールの使用を正確に統合する際の課題に直面します。
本研究では,強化学習,特にグループ相対的政策最適化がSLMのツール利用をいかに向上させるかを検討する。
論文 参考訳(メタデータ) (2025-09-03T07:41:14Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs [3.41612427812159]
デジタルコンテンツ作成ツールでは、ユーザは、API呼び出しにマップしなければならない自然言語クエリを通じて、ニーズを表現します。
既存の合成データ生成アプローチでは、実世界のデータ分散を複製することができない。
高品質な合成学習データを生成するルータベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-05-15T16:53:45Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - ActionStudio: A Lightweight Framework for Data and Training of Large Action Models [88.90834854360641]
ActionStudioは、大規模アクションモデル用に設計された軽量でスケーラブルなデータおよびトレーニングフレームワークである。
トレーニングされたモデルでは、公開および現実的なエージェントベンチマークで最高のパフォーマンスが得られます。
我々はActionStudioフレームワークをオープンソース化し、98kの高品質なトラジェクトリをキュレートしたデータセットであるActionStudio-98kをリリースする。
論文 参考訳(メタデータ) (2025-03-28T17:58:33Z) - FRIDA to the Rescue! Analyzing Synthetic Data Effectiveness in Object-Based Common Sense Reasoning for Disaster Response [25.400882898288216]
フィールド推論および命令復号化エージェント(FRIDA)モデルを作成するためのデータセットとパイプラインを導入する。
私たちのパイプラインでは、ドメインの専門家と言語学者が知識を組み合わせて、高品質で数発のプロンプトを作ります。
そこで本研究では,FRIDAモデルがオブジェクトの物理的状態と関数データのみを学習し,FRIDAモデルがすべての合成データとベースモデルの両方で学習したモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-25T18:51:06Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。