Fugu-MT 論文翻訳(概要): Federated Data-Efficient Instruction Tuning for Large Language Models

論文の概要: Federated Data-Efficient Instruction Tuning for Large Language Models

arxiv url: http://arxiv.org/abs/2410.10926v2
Date: Fri, 27 Jun 2025 08:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 15:06:57.041219
Title: Federated Data-Efficient Instruction Tuning for Large Language Models
Title（参考訳）: 大規模言語モデルのためのフェデレーションデータ効率向上型インストラクションチューニング
Authors: Zhen Qin, Zhaomin Wu, Bingsheng He, Shuiguang Deng,
Abstract要約: フェデレートされたデータ効率のチューニング手法を提案する。実験の結果、FedHDSはSOTAのフルデータ・フェデレーション・インストラクション・チューニング手法よりも平均10.72%改善した。
参考スコア（独自算出の注目度）: 34.35613476734293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction tuning is a crucial step in improving the responsiveness of pretrained large language models (LLMs) to human instructions. Federated learning (FL) helps to exploit the use of vast private instruction data from clients, becoming popular for LLM tuning by improving data diversity. Existing federated tuning simply consumes all local data, causing excessive computational overhead and overfitting to local data, while centralized data-efficient solutions are not suitable for FL due to privacy concerns. This work presents FedHDS, a federated data-efficient instruction tuning approach, which tunes LLMs with a representative subset of edge-side data. It reduces the data redundancy at both intra- and inter-client levels without sharing raw data. Experiments with various LLMs, datasets and partitions show that FedHDS improves Rouge-L on unseen tasks by an average of 10.72% over the SOTA full-data federated instruction tuning methods, while using less than 1.5% of the data samples, improving training efficiency by up to tens of times.
Abstract（参考訳）: インストラクションチューニングは、事前訓練された大規模言語モデル(LLM)の人間の命令に対する応答性を改善するための重要なステップである。フェデレートラーニング(FL)は、クライアントからの膨大なプライベートインストラクションデータの利用に役立ち、データの多様性を改善してLLMチューニングに人気を博している。既存のフェデレートされたチューニングは、単純にすべてのローカルデータを消費し、過剰な計算オーバーヘッドとローカルデータへの過度な適合を引き起こす。この研究は、フェデレートされたデータ効率のチューニング手法であるFedHDSを示し、エッジ側データの代表的なサブセットでLLMをチューニングする。これにより、生データを共有することなく、クライアント内およびクライアント間レベルのデータの冗長性を低減できる。様々なLLM、データセット、パーティションを用いた実験では、FedHDSはSOTAのフルデータフェデレーション・インストラクションチューニング手法よりも平均10.72%改善し、データサンプルの1.5%未満を使用し、トレーニング効率を最大数倍改善している。

関連論文リスト

Transferable text data distillation by trajectory matching [27.826518926355295]
データ蒸留法は、少数のデータサンプルを合成し、全データセットのトレーニング効果を達成することを目的としている。本研究では,軌道マッチングに基づいて擬似的プロンプトデータを学習する手法を提案する。 ARC-Easy と MMLU の命令チューニングデータセットを含む2つのベンチマークによる評価により,SOTA データ選択手法 LESS よりも蒸留法の方が優れていることを確認した。
論文参考訳（メタデータ） (2025-04-14T02:39:26Z)
Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文参考訳（メタデータ） (2024-12-09T08:36:10Z)
Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-11-15T19:36:15Z)
Data Quality Control in Federated Instruction-tuning of Large Language Models [43.29678396558287]
データ品質制御(FedDQC)を備えた大規模言語モデル(LLM)のフェデレーション・インストラクション・チューニングの新しいフレームワークを提案する。提案手法では,各クライアントの命令応答アライメント(IRA)を評価するための効率的なメトリクスを導入し,単一ショット推論によるノイズの多いデータを同定する。我々は4つの合成データセットと実世界のデータセットについて広範な実験を行い、この手法を集中的な設定から適応したベースラインと比較した。
論文参考訳（メタデータ） (2024-10-15T12:14:57Z)
Fisher Information-based Efficient Curriculum Federated Learning with Large Language Models [43.26028399395612]
本稿では,2つの新しい手法を用いたフィッシャー情報に基づく効率的なカリキュラムフェデレート学習フレームワーク(FibecFed)を提案する。まず,各装置内のデータを適応的にサンプリングし,FL微調整プロセスの有効性を向上させるための漁師情報に基づく手法を提案する。第2に,グローバルアグリゲーションのための適切なレイヤとLoRAによるローカル更新のためのスパースパラメータを動的に選択する。
論文参考訳（メタデータ） (2024-09-30T18:12:18Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文参考訳（メタデータ） (2024-03-20T17:59:58Z)
RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-27T09:47:36Z)
Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文参考訳（メタデータ） (2024-02-21T02:45:46Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。 FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文参考訳（メタデータ） (2023-12-11T13:03:21Z)
Federated Learning of Large Language Models with Parameter-Efficient Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。 LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文参考訳（メタデータ） (2023-10-23T16:37:59Z)
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (2023-10-18T05:13:47Z)
FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文参考訳（メタデータ） (2023-09-18T12:35:05Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low Training Data Instruction Tuning [13.558918552284906]
本稿では,大規模言語モデル(LLM)の指導訓練に使用するデータを削減することに着目し,トレーニングコストの低減とデータ効率の向上を図る。その結果、タスク固有のモデルは、オリジナルのデータセットの0.5%未満でトレーニングでき、完全なタスク関連のデータでトレーニングされたモデルよりも2%パフォーマンスが向上したことが示唆された。
論文参考訳（メタデータ） (2023-05-16T07:52:57Z)
FedDRL: Deep Reinforcement Learning-based Adaptive Aggregation for Non-IID Data in Federated Learning [4.02923738318937]
異なるエッジデバイス(クライアント)にまたがるローカルデータの不均一な分散は、フェデレート学習における遅いモデルトレーニングと精度の低下をもたらす。この研究は、実世界のデータセット、すなわちクラスタスキューで発生する新しい非IID型を導入している。我々は,各クライアントのインパクト要因を適応的に決定するために,深層強化学習を用いた新しいFLモデルであるFedDRLを提案する。
論文参考訳（メタデータ） (2022-08-04T04:24:16Z)
Acceleration of Federated Learning with Alleviated Forgetting in Local Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文参考訳（メタデータ） (2022-03-05T02:31:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。