論文の概要: Boosting Tool Use of Large Language Models via Iterative Reinforced Fine-Tuning
- arxiv url: http://arxiv.org/abs/2501.09766v1
- Date: Wed, 15 Jan 2025 04:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:01:02.516865
- Title: Boosting Tool Use of Large Language Models via Iterative Reinforced Fine-Tuning
- Title(参考訳): 反復強化ファインチューニングによる大規模言語モデルのブースティングツール利用
- Authors: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Bing Qin, Ting Liu,
- Abstract要約: 大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
本稿では,モデルを継続的にガイドして緩和するための反復強化微調整戦略を提案する。
当社のモデルは、同じパラメトリックモデルを超えて、多くの大規模なオープンソースモデルとクローズドソースモデルより優れています。
- 参考スコア(独自算出の注目度): 39.65877861652369
- License:
- Abstract: Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities. Effectively leveraging this potential for complex tasks hinges crucially on improving their ability to use tools. Synthesizing tool use data by simulating the real world is an effective approach. Nevertheless, our investigation reveals that training gains significantly decay as the scale of these data increases. The primary factor is the model's poor performance (a.k.a deficiency) in complex scenarios, which hinders learning from data using SFT. Driven by this objective, we propose an iterative reinforced fine-tuning strategy to continually guide the model to alleviate it. Specifically, we first identify deficiency-related data based on feedback from the policy model, then perform a Monte Carlo Tree Search to collect fine-grained preference pairs to pinpoint deficiencies. Subsequently, we update the policy model using preference optimization to align with ground truth and misalign with deficiencies. This process can be iterated. Moreover, before the iteration, we propose an easy-to-hard warm-up SFT strategy to facilitate learning from challenging data. The experiments demonstrate our models go beyond the same parametric models, outperforming many larger open-source and closed-source models. Additionally, it has achieved notable training gains in complex tool use scenarios.
- Abstract(参考訳): 大きな言語モデル(LLM)を外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
このポテンシャルを複雑なタスクに効果的に活用することは、ツールを使用する能力を改善する上で極めて重要である。
現実世界をシミュレートしてツールの使用データを合成することは効果的なアプローチである。
しかしながら,本研究は,これらのデータの規模が大きくなるにつれて,トレーニングが著しく低下することを明らかにする。
主な要因は、複雑なシナリオにおけるモデルの貧弱なパフォーマンス(つまり不足)であり、SFTを用いたデータからの学習を妨げる。
この目的により、モデルを継続的にガイドし、緩和するための反復的な強化された微調整戦略を提案する。
具体的には、まずポリシーモデルからのフィードバックに基づいて欠陥関連データを識別し、次にモンテカルロ木探索を行い、詳細な選好ペアを収集し、欠陥を指摘します。
その後、優先最適化を用いてポリシーモデルを更新し、真理に一致し、欠陥に悪影響を及ぼす。
このプロセスを繰り返すことができる。
さらに,本イテレーションの前に,課題データからの学習を容易にするため,簡単なウォームアップ戦略を提案する。
実験では、我々のモデルは同じパラメトリックモデルを超え、多くの大規模なオープンソースモデルとクローズドソースモデルより優れています。
さらに、複雑なツールの使用シナリオにおいて、優れたトレーニングの成果を上げています。
関連論文リスト
- OptMATH: A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling [9.617742955894247]
高品質な最適化モデリングデータセットの欠如は、大きな言語モデルを悩ませます。
本稿では,OptMATHという高品質なデータセットを合成するためのスケーラブルなフレームワークを提案する。
我々は,OptMATHでトレーニングした様々なサイズのモデルが,複数のモデリングベンチマークにおいて優れた結果が得られることを実証した。
論文 参考訳(メタデータ) (2025-02-16T12:38:37Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Learning Distributionally Robust Models at Scale via Composite
Optimization [45.47760229170775]
DROの異なる変種が、スケーラブルな方法を提供する有限サム合成最適化の単なる例であることを示す。
また、非常に大規模なデータセットからロバストなモデルを学ぶために、先行技術に関して提案アルゴリズムの有効性を示す実験結果も提供する。
論文 参考訳(メタデータ) (2022-03-17T20:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。