論文の概要: Leveraging Unstructured Text Data for Federated Instruction Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2409.07136v1
- Date: Wed, 11 Sep 2024 09:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:02:58.617453
- Title: Leveraging Unstructured Text Data for Federated Instruction Tuning of Large Language Models
- Title(参考訳): 大規模言語モデルのフェデレーション・インストラクション・チューニングのための非構造化テキストデータの活用
- Authors: Rui Ye, Rui Ge, Yuchi Fengting, Jingyi Chai, Yanfeng Wang, Siheng Chen,
- Abstract要約: 複数のクライアントが共同で共有大言語モデル(LLM)を微調整できるフェデレート・インストラクション・チューニング
既存の文献では、すべてのクライアントが命令チューニングデータを簡単に保持する必要がある。
本稿では,非構造化コーパスをフェデレートした命令チューニングのための構造化データに変換する新しいフレームワークであるFedIT-U2Sを提案する。
- 参考スコア(独自算出の注目度): 45.139087558425395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated instruction tuning enables multiple clients to collaboratively fine-tune a shared large language model (LLM) that can follow humans' instructions without directly sharing raw data. However, existing literature impractically requires that all the clients readily hold instruction-tuning data (i.e., structured instruction-response pairs), which necessitates massive human annotations since clients' data is usually unstructured text instead. Addressing this, we propose a novel and flexible framework FedIT-U2S, which can automatically transform unstructured corpus into structured data for federated instruction tuning. FedIT-U2S consists two key steps: (1) few-shot instruction-tuning data generation, where each unstructured data piece together with several examples is combined to prompt an LLM in generating an instruction-response pair. To further enhance the flexibility, a retrieval-based example selection technique is proposed, where the examples are automatically selected based on the relatedness between the client's data piece and example pool, bypassing the need of determining examples in advance. (2) A typical federated instruction tuning process based on the generated data. Overall, FedIT-U2S can be applied to diverse scenarios as long as the client holds valuable text corpus, broadening the application scope of federated instruction tuning. We conduct a series of experiments on three domains (medicine, knowledge, and math), showing that our proposed FedIT-U2S can consistently and significantly brings improvement over the base LLM.
- Abstract(参考訳): フェデレートされた命令チューニングにより、複数のクライアントは、生データを直接共有することなく、人間の指示に従うことができる共有大言語モデル(LLM)を協調的に微調整できる。
しかし、既存の文献では、すべてのクライアントが命令調整データ(すなわち、構造化された命令応答ペア)を簡単に保持する必要がある。
そこで本研究では,非構造化コーパスをフェデレートした命令チューニングのための構造化データに変換する,新しいフレキシブルなフレームワークであるFedIT-U2Sを提案する。
FedIT-U2Sは以下の2つの重要なステップから構成される: (1) 少数ショットの命令調整データ生成。
さらにその柔軟性を高めるために,クライアントのデータ片とサンプルプールの関連性に基づいてサンプルを自動的に選択する検索ベースのサンプル選択手法を提案する。
2) 生成したデータに基づく典型的なフェデレーション・インストラクション・チューニング・プロセス。
全体として、クライアントが貴重なテキストコーパスを保持する限り、FedIT-U2Sは多様なシナリオに適用でき、フェデレートされた命令チューニングのアプリケーション範囲を広げる。
我々は3つの領域(医学、知識、数学)で一連の実験を行い、提案したFedIT-U2SがベースLSMよりも一貫して大幅に改善できることを示す。
関連論文リスト
- Federated Data-Efficient Instruction Tuning for Large Language Models [34.35613476734293]
大規模言語モデルのためのフェデレーションデータ効率インストラクションチューニングであるFedHDSについて述べる。
これにより、クライアント内およびクライアント間レベルでのデータサンプルの冗長性が低下する。
実験により、FedHDSは微調整に必要なデータ量を著しく削減し、命令調整LDMの応答性を改善した。
論文 参考訳(メタデータ) (2024-10-14T15:05:51Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - Exploring Format Consistency for Instruction Tuning [79.0698403613366]
本研究では,Unified Instruction Tuning (UIT) というフレームワークを提案する。
UITはOpenAI APIを呼び出し、PromptSource、FLAN、CrossFitといったさまざまなインストラクションチューニングデータセット間で自動フォーマット転送を行う。
提案手法では,T5-LM-xlにおける未知命令の一般化性能の向上と,自動フォーマット転送のノイズを低減するために,新しいパープレキシティに基づくデノナイジング手法を提案する。
論文 参考訳(メタデータ) (2023-07-28T12:00:13Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Unified Text Structuralization with Instruction-tuned Language Models [28.869098023025753]
テキストから様々な構造を抽出する大規模言語モデル(LLM)を提案する。
実験により、様々な言語や知識のデータセット上で、言語モデルが他の最先端の手法と同等に動作できることが示されている。
論文 参考訳(メタデータ) (2023-03-27T07:39:05Z) - Personalized Federated Learning With Structure [24.566947384179837]
本研究では,グローバルモデルとパーソナライズドモデルとを同時に学習するための,構造化フェデレーション学習(SFL)フレームワークを提案する。
事前定義された構造とは対照的に、構造学習コンポーネントを追加して構造を自動的に学習することで、我々のフレームワークをさらに強化することができる。
論文 参考訳(メタデータ) (2022-03-02T02:43:51Z) - Neural Data-to-Text Generation with LM-based Text Augmentation [27.822282190362856]
弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。
すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
論文 参考訳(メタデータ) (2021-02-06T10:21:48Z) - Substructure Substitution: Structured Data Augmentation for NLP [55.69800855705232]
SUB2は、同じラベルを持つサブ構造を置換して新しい例を生成する。
より一般的なタスクでは、選挙区解析木に基づくSUB2のバリエーションを示す。
ほとんどの場合、SUB2による強化データセットによるトレーニングは、元のトレーニングセットでのトレーニングよりも優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-01-02T09:54:24Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。