Fugu-MT 論文翻訳(概要): Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language Models

論文の概要: Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language Models

arxiv url: http://arxiv.org/abs/2406.08811v2
Date: Sun, 06 Oct 2024 14:44:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 14:04:38.212955
Title: Mixture-of-Skills: Learning to Optimize Data Usage for Fine-Tuning Large Language Models
Title（参考訳）: Mixture-of-Skills: 大規模言語モデルのためのデータ利用を最適化する学習
Authors: Minghao Wu, Thuy-Trang Vu, Lizhen Qu, Gholamreza Haffari,
Abstract要約: 大規模言語モデル(LLM)は、様々な起源から派生した多種多様なデータセットに基づいて微調整されるのが一般的である。 MoSは、微調整プロセス中に自動的にデータ使用量を最適化することを学ぶ。 MoSpecは、特定の目的のために様々なデータセットのユーティリティを利用する。
参考スコア（独自算出の注目度）: 45.51085356985464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are typically fine-tuned on diverse and extensive datasets sourced from various origins to develop a comprehensive range of skills, such as writing, reasoning, chatting, coding, and more. Each skill has unique characteristics, and these datasets are often heterogeneous and imbalanced, making the fine-tuning process highly challenging. Balancing the development of each skill while ensuring the model maintains its overall performance requires sophisticated techniques and careful dataset curation. In this work, we propose a general, model-agnostic, reinforcement learning framework, Mixture-of-Skills (MoS), that learns to optimize data usage automatically during the fine-tuning process. This framework ensures the optimal comprehensive skill development of LLMs by dynamically adjusting the focus on different datasets based on their current learning state. To validate the effectiveness of MoS, we conduct extensive experiments using three diverse LLM backbones on two widely used benchmarks and demonstrate that MoS substantially enhances model performance. Building on the success of MoS, we propose MoSpec, an adaptation for task-specific fine-tuning, which harnesses the utilities of various datasets for a specific purpose. Our work underlines the significance of dataset rebalancing and present MoS as a powerful, general solution for optimizing data usage in the fine-tuning of LLMs for various purposes.
Abstract（参考訳）: 大規模言語モデル(LLM)は通常、様々な起源から派生した多種多様なデータセットに基づいて微調整され、書き込み、推論、チャット、コーディングなどの包括的なスキルを開発する。それぞれのスキルには固有の特徴があり、これらのデータセットはしばしば異質で不均衡であり、微調整プロセスは非常に困難である。モデル全体のパフォーマンスを確実に維持しながら、各スキルの開発をバランスさせるには、高度な技術と慎重にデータセットをキュレーションする必要があります。本研究では,モデルに依存しない強化学習フレームワークであるMixture-of-Skills(MoS)を提案する。このフレームワークは、現在の学習状況に基づいて異なるデータセットにフォーカスを動的に調整することで、LLMの最適な総合的スキル開発を保証する。 MoSの有効性を検証するために,広範に使用されている2つのベンチマークにおいて,3つの異なるLCMバックボーンを用いた広範囲な実験を行い,MoSがモデル性能を大幅に向上することを示した。 MoS の成功に基づいて,タスク固有の微調整の適応である MoSpec を提案する。我々の研究はデータセット再バランスの重要性を浮き彫りにして、様々な目的のためにLLMを微調整する際のデータ利用を最適化する強力な汎用ソリューションとして、MoSを提示する。

関連論文リスト

IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment [29.703775936837012]
大規模言語モデル(LLM)は、多様な教育データセット上でのスーパービジョンファインチューニング(SFT)を通じて、素晴らしいパフォーマンスを実現している。複数の機能を同時にトレーニングする場合、異なるドメインからのデータ量によって管理される混合トレーニングデータセットは、最終モデルのパフォーマンスに直接影響を及ぼす重要な要素である。混合SFTデータセット内の異なる領域からのデータのボリュームを効果的に最適化する革新的なデータ平衡フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T06:42:44Z)
Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。 Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文参考訳（メタデータ） (2025-05-18T03:10:00Z)
Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study [11.452011929848844]
本研究では,マルチタスク最適化を支援するメタサロゲートフレームワークを提案する。問題群に適合するメタデータを持つ普遍モデルを定義することにより、多タスクフィットネス予測のための統一的なフレームワークを定式化する。我々のフレームワークは、双対レベルの知識伝達 -- 代理レベルと個別レベルの両方 -- をサポートし、最適化の効率性と堅牢性を高めます。
論文参考訳（メタデータ） (2025-03-11T11:13:11Z)
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
Unified Parameter-Efficient Unlearning for LLMs [25.195126838721492]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクに対する高度な理解と推論を可能にする。これは、モデルが不注意に機密情報や望ましくない情報を保持および拡散する可能性があるため、重要なプライバシーとセキュリティ上の懸念を提起する。本稿では,非学習タスクを体系的に分類し,影響関数を用いた高精度な調整を行う,新しいインスタンス単位のアンラーニングフレームワークLLMEraserを紹介する。
論文参考訳（メタデータ） (2024-11-30T07:21:02Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
Dynamic Adaptive Optimization for Effective Sentiment Analysis Fine-Tuning on Large Language Models [0.0]
大規模言語モデル(LLM)は、マルチタスク学習を利用して特定のタスクを同時に処理することで、感情分析の一般的なパラダイムとなっている。動的適応最適化(DAO)モジュールを用いた新しいマルチタスク学習フレームワークを提案する。この研究は、平均二乗誤差(MSE)と精度(ACC)を、以前の研究と比べてそれぞれ15.58%、1.24%改善した。
論文参考訳（メタデータ） (2024-08-15T19:13:38Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。 MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。 2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-06-17T06:47:03Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。