論文の概要: VersaTune: An Efficient Data Composition Framework for Training Multi-Capability LLMs
- arxiv url: http://arxiv.org/abs/2411.11266v4
- Date: Thu, 05 Dec 2024 02:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:37:37.528432
- Title: VersaTune: An Efficient Data Composition Framework for Training Multi-Capability LLMs
- Title(参考訳): VersaTune: マルチ能力 LLM をトレーニングするための効率的なデータ構成フレームワーク
- Authors: Keer Lu, Keshi Zhao, Zheng Liang, Da Pan, Shusen Zhang, Xin Wu, Weipeng Chen, Zenan Zhou, Guosheng Dong, Bin Cui, Wentao Zhang,
- Abstract要約: VersaTuneは、トレーニング中の大規模言語モデルのマルチビリティパフォーマンスを向上させるために設計された、新しいデータ合成フレームワークである。
我々は、知識を法律、医学、金融、科学、法典など、異なる領域に分類する。
VersaTuneは、包括的なマルチドメインタスクの35.21%の強化により、マルチドメインパフォーマンスの大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 38.65649832364651
- License:
- Abstract: Large-scale pretrained models, particularly Large Language Models (LLMs), have exhibited remarkable capabilities in handling multiple tasks across domains due to their emergent properties. These capabilities are further augmented during the Supervised Fine-Tuning (SFT) phase. Despite their potential, existing work mainly focuses on domain-specific enhancements during fine-tuning, the challenge of which lies in catastrophic forgetting of knowledge across other domains. In this study, we introduce VersaTune, a novel data composition framework designed for enhancing LLMs' overall multi-ability performances during training. We categorize knowledge into distinct domains including law, medicine, finance, science, code, etc. We begin with detecting the distribution of domain-specific knowledge within the base model, followed by the training data composition that aligns with the model's existing knowledge distribution. During the training process, domain weights are dynamically adjusted based on their learnable potential and forgetting degree. Experimental results demonstrate that VersaTune achieves significant improvements in multi-domain performance, with an 35.21% enhancement in comprehensive multi-domain tasks. Additionally, in scenarios where specific domain optimization is required, VersaTune reduces the degradation of performance in other domains by 38.77%, without compromising the target domain's training efficacy.
- Abstract(参考訳): 大規模事前訓練モデル、特にLarge Language Models (LLMs) は、その創発的特性のためにドメイン間で複数のタスクを処理する際、顕著な能力を発揮している。
これらの機能は、Supervised Fine-Tuning (SFT) フェーズでさらに強化される。
その可能性にもかかわらず、既存の研究は主に微調整中のドメイン固有の拡張に焦点を当てており、その課題は他領域の知識を破滅的に忘れることにある。
本研究では,LLMの総合的マルチビリティ性能向上を目的とした新しいデータ合成フレームワークであるVersaTuneを紹介する。
我々は、知識を法律、医学、金融、科学、法典など、異なる領域に分類する。
まず、ベースモデル内のドメイン固有の知識の分布を検出し、続いてモデルの既存の知識分布と整合したトレーニングデータを構成する。
トレーニングの過程では、学習可能なポテンシャルと度合いに基づいて、ドメインの重みを動的に調整する。
実験の結果、VersaTuneは、包括的なマルチドメインタスクの35.21%の強化により、マルチドメインパフォーマンスの大幅な改善を実現している。
さらに、特定のドメイン最適化が必要なシナリオでは、ターゲットドメインのトレーニング効率を損なうことなく、VersaTuneは、他のドメインのパフォーマンスの劣化を38.77%削減する。
関連論文リスト
- Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。
これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。
勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文 参考訳(メタデータ) (2025-01-26T15:12:06Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
本稿では,ドメイン固有タスクのための細調整型大規模言語モデル (LLM) の詳細な解析を行う。
ドメイン固有のケースでは、ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略ではないことが分かりました。
我々は、Phi-3-Miniのような小さなモデルが、どのようにして最先端の結果が得られるかを実証する。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - Investigating Continual Pretraining in Large Language Models: Insights and Implications [9.660013084324817]
大規模言語モデル(LLM)における継続的な学習は、効率的で持続可能なトレーニング戦略の開発に焦点を当てた進化途上のドメインである。
我々は,LLMの事前学習データランドスケープの変化に対する適応性を測定するために,新しいベンチマークを導入する。
i) 継続事前学習は、この研究で研究された1.5Bモデルを継続的に改善し、ドメイン適応よりも優れていること、(ii) より大きなモデルは、同じコーパス上で継続的に事前訓練された場合、より小さなモデルよりもずっと複雑であること、(iii) より小さなモデルは、特に連続事前訓練に敏感であること、そして、学習と学習の双方において最も有意な割合を示すこと、など、いくつかの重要な知見が明らかになった。
論文 参考訳(メタデータ) (2024-02-27T10:47:24Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。