論文の概要: ToolSample: Dual Dynamic Sampling Methods with Curriculum Learning for RL-based Tool Learning
- arxiv url: http://arxiv.org/abs/2509.14718v1
- Date: Thu, 18 Sep 2025 08:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.115093
- Title: ToolSample: Dual Dynamic Sampling Methods with Curriculum Learning for RL-based Tool Learning
- Title(参考訳): ToolSample: RLベースのツール学習のためのカリキュラム学習によるデュアルダイナミックサンプリング手法
- Authors: Zihao Feng, Xiaoxue Wang, Bowen Wu, Hailong Cao, Tiejun Zhao, Qun Yu, Baoxun Wang,
- Abstract要約: 本稿では,この課題に対処するためのフレームワークであるDSCL(Dynamic Smpling with Curriculum Learning)を紹介する。
DSCLは2つのコアコンポーネントを備えている。Reward-Based Dynamic Smplingは多次元の報酬統計(平均値と分散値)を使用して価値データを優先順位付けする。
- 参考スコア(独自算出の注目度): 21.358546649313595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) is increasingly used for LLM-based tool learning, its efficiency is often hampered by an overabundance of simple samples that provide diminishing learning value as training progresses. Existing dynamic sampling techniques are ill-suited for the multi-task structure and fine-grained reward mechanisms inherent to tool learning. This paper introduces Dynamic Sampling with Curriculum Learning (DSCL), a framework specifically designed to address this challenge by targeting the unique characteristics of tool learning: its multiple interdependent sub-tasks and multi-valued reward functions. DSCL features two core components: Reward-Based Dynamic Sampling, which uses multi-dimensional reward statistics (mean and variance) to prioritize valuable data, and Task-Based Dynamic Curriculum Learning, which adaptively focuses training on less-mastered sub-tasks. Through extensive experiments, we demonstrate that DSCL significantly improves training efficiency and model performance over strong baselines, achieving a 3.29\% improvement on the BFCLv3 benchmark. Our method provides a tailored solution that effectively leverages the complex reward signals and sub-task dynamics within tool learning to achieve superior results.
- Abstract(参考訳): 強化学習(RL)は、LLMベースのツール学習にますます使われているが、その効率は、訓練が進むにつれて学習価値が低下する単純なサンプルの過剰さによって妨げられていることが多い。
既存の動的サンプリング技術は、ツール学習に固有のマルチタスク構造と微粒化報酬機構に不適である。
本稿では,ツール学習の独特な特徴である,複数の相互依存サブタスクと多値報酬関数を対象とする動的サンプリングとカリキュラム学習(DSCL)を提案する。
DSCLは2つのコアコンポーネントを備えている。Reward-Based Dynamic Smplingは多次元の報酬統計(平均値と分散値)を使用して価値データを優先順位付けする。
大規模な実験により,DSCLはトレーニング効率とモデル性能をBFCLv3ベンチマークで3.29倍に向上することを示した。
本手法は,ツール学習における複雑な報酬信号とサブタスクのダイナミクスを効果的に活用し,優れた結果が得られるように調整されたソリューションを提供する。
関連論文リスト
- Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。
ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。
Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文 参考訳(メタデータ) (2025-05-22T09:00:19Z) - ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-04-16T21:45:32Z) - ToolACE-R: Model-aware Iterative Training and Adaptive Refinement for Tool Learning [84.69651852838794]
ツール学習により、LLM(Large Language Models)は複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール学習のための反復学習と適応的洗練の両方を含む新しいフレームワークであるToolACE-Rを提案する。
我々は、いくつかのベンチマークデータセットにわたる広範な実験を行い、ToolACE-Rが高度なAPIベースのモデルと比較して、競争力のあるパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Balanced Supervised Contrastive Learning for Few-Shot Class-Incremental
Learning [8.411863266518395]
我々は,FSCILネットワークの各コアコンポーネントに対して,効果的な手法を統合する,シンプルで強力な学習手法を開発した。
特徴抽出学習において、我々のゴールは、現在の表示可能クラスと見えないクラスと過去のクラスの両方に利益をもたらす、バランスのとれた汎用表現を得ることである。
提案手法は,CUB200,CIFAR100,MiniImagenetデータセットにおいて,新しいタスク学習の優れた能力を示す。
論文 参考訳(メタデータ) (2023-05-26T07:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。