論文の概要: VersaTune: An Efficient Data Composition Framework for Training Multi-Capability LLMs
- arxiv url: http://arxiv.org/abs/2411.11266v4
- Date: Thu, 05 Dec 2024 02:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:17:01.576134
- Title: VersaTune: An Efficient Data Composition Framework for Training Multi-Capability LLMs
- Title(参考訳): VersaTune: マルチ能力 LLM をトレーニングするための効率的なデータ構成フレームワーク
- Authors: Keer Lu, Keshi Zhao, Zheng Liang, Da Pan, Shusen Zhang, Xin Wu, Weipeng Chen, Zenan Zhou, Guosheng Dong, Bin Cui, Wentao Zhang,
- Abstract要約: VersaTuneは、トレーニング中の大規模言語モデルのマルチビリティパフォーマンスを向上させるために設計された、新しいデータ合成フレームワークである。
我々は、知識を法律、医学、金融、科学、法典など、異なる領域に分類する。
VersaTuneは、包括的なマルチドメインタスクの35.21%の強化により、マルチドメインパフォーマンスの大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 38.65649832364651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pretrained models, particularly Large Language Models (LLMs), have exhibited remarkable capabilities in handling multiple tasks across domains due to their emergent properties. These capabilities are further augmented during the Supervised Fine-Tuning (SFT) phase. Despite their potential, existing work mainly focuses on domain-specific enhancements during fine-tuning, the challenge of which lies in catastrophic forgetting of knowledge across other domains. In this study, we introduce VersaTune, a novel data composition framework designed for enhancing LLMs' overall multi-ability performances during training. We categorize knowledge into distinct domains including law, medicine, finance, science, code, etc. We begin with detecting the distribution of domain-specific knowledge within the base model, followed by the training data composition that aligns with the model's existing knowledge distribution. During the training process, domain weights are dynamically adjusted based on their learnable potential and forgetting degree. Experimental results demonstrate that VersaTune achieves significant improvements in multi-domain performance, with an 35.21% enhancement in comprehensive multi-domain tasks. Additionally, in scenarios where specific domain optimization is required, VersaTune reduces the degradation of performance in other domains by 38.77%, without compromising the target domain's training efficacy.
- Abstract(参考訳): 大規模事前訓練モデル、特にLarge Language Models (LLMs) は、その創発的特性のためにドメイン間で複数のタスクを処理する際、顕著な能力を発揮している。
これらの機能は、Supervised Fine-Tuning (SFT) フェーズでさらに強化される。
その可能性にもかかわらず、既存の研究は主に微調整中のドメイン固有の拡張に焦点を当てており、その課題は他領域の知識を破滅的に忘れることにある。
本研究では,LLMの総合的マルチビリティ性能向上を目的とした新しいデータ合成フレームワークであるVersaTuneを紹介する。
我々は、知識を法律、医学、金融、科学、法典など、異なる領域に分類する。
まず、ベースモデル内のドメイン固有の知識の分布を検出し、続いてモデルの既存の知識分布と整合したトレーニングデータを構成する。
トレーニングの過程では、学習可能なポテンシャルと度合いに基づいて、ドメインの重みを動的に調整する。
実験の結果、VersaTuneは、包括的なマルチドメインタスクの35.21%の強化により、マルチドメインパフォーマンスの大幅な改善を実現している。
さらに、特定のドメイン最適化が必要なシナリオでは、ターゲットドメインのトレーニング効率を損なうことなく、VersaTuneは、他のドメインのパフォーマンスの劣化を38.77%削減する。
関連論文リスト
- Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。
これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。
勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文 参考訳(メタデータ) (2025-01-26T15:12:06Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
金融を含むドメイン固有の文脈における大規模言語モデル(LLM)の適用について検討する。
ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略であるとは限らない。
代わりに、マルチタスクの微調整はパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - Domain-Aware Fine-Tuning of Foundation Models [18.336887359257087]
ファンデーションモデル(FM)はコンピュータビジョンに革命をもたらし、異なるドメイン間で効果的な学習を可能にした。
本稿では、異なるバックボーンアーキテクチャの比較により、FMのゼロショット領域適応ポテンシャルについて検討する。
ドメイン関連テキスト埋め込みを利用した新しいドメイン認識コンポーネントを提案する。
論文 参考訳(メタデータ) (2024-07-03T20:10:55Z) - Investigating Continual Pretraining in Large Language Models: Insights and Implications [9.660013084324817]
大規模言語モデル(LLM)における継続的な学習は、効率的で持続可能なトレーニング戦略の開発に焦点を当てた進化途上のドメインである。
我々は,LLMの事前学習データランドスケープの変化に対する適応性を測定するために,新しいベンチマークを導入する。
i) 継続事前学習は、この研究で研究された1.5Bモデルを継続的に改善し、ドメイン適応よりも優れていること、(ii) より大きなモデルは、同じコーパス上で継続的に事前訓練された場合、より小さなモデルよりもずっと複雑であること、(iii) より小さなモデルは、特に連続事前訓練に敏感であること、そして、学習と学習の双方において最も有意な割合を示すこと、など、いくつかの重要な知見が明らかになった。
論文 参考訳(メタデータ) (2024-02-27T10:47:24Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z) - Improving Transferability of Domain Adaptation Networks Through Domain
Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。
我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。
我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文 参考訳(メタデータ) (2021-09-06T18:41:19Z) - Variational Attention: Propagating Domain-Specific Knowledge for
Multi-Domain Learning in Crowd Counting [75.80116276369694]
群集カウントでは, 激しいラベル付けの問題により, 新しい大規模データセットを収集する難易度が知覚される。
マルチドメイン共同学習を活用し,DKPNet(Domain-specific Knowledge Propagating Network)を提案する。
主に、異なるドメインに対する注意分布を明示的にモデル化する、新しい変動注意法(VA)技術を提案する。
論文 参考訳(メタデータ) (2021-08-18T08:06:37Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z) - Domain Conditioned Adaptation Network [90.63261870610211]
本稿では,ドメイン条件付きチャネルアテンション機構を用いて,異なる畳み込みチャネルを励起するドメイン条件適応ネットワーク(DCAN)を提案する。
これは、ディープDAネットワークのドメインワイドな畳み込みチャネルアクティベーションを探求する最初の試みである。
論文 参考訳(メタデータ) (2020-05-14T04:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。