論文の概要: Towards Federated Foundation Models: Scalable Dataset Pipelines for
Group-Structured Learning
- arxiv url: http://arxiv.org/abs/2307.09619v2
- Date: Fri, 22 Dec 2023 02:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 18:33:42.077120
- Title: Towards Federated Foundation Models: Scalable Dataset Pipelines for
Group-Structured Learning
- Title(参考訳): 連合基盤モデルに向けて: グループ構造学習のためのスケーラブルなデータセットパイプライン
- Authors: Zachary Charles, Nicole Mitchell, Krishna Pillutla, Michael Reneer,
Zachary Garrett
- Abstract要約: 大規模なグループ構造化データセットを作成するためのライブラリであるデータセットグルーパーを紹介する。
基礎モデルのスケールでの連合学習シミュレーションを可能にする。
- 参考スコア(独自算出の注目度): 11.205441416962284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Dataset Grouper, a library to create large-scale
group-structured (e.g., federated) datasets, enabling federated learning
simulation at the scale of foundation models. This library facilitates the
creation of group-structured versions of existing datasets based on
user-specified partitions and directly leads to a variety of useful
heterogeneous datasets that can be plugged into existing software frameworks.
Dataset Grouper offers three key advantages. First, it scales to settings where
even a single group's dataset is too large to fit in memory. Second, it
provides flexibility, both in choosing the base (non-partitioned) dataset and
in defining partitions. Finally, it is framework-agnostic. We empirically
demonstrate that Dataset Grouper enables large-scale federated language
modeling simulations on datasets that are orders of magnitude larger than in
previous work, allowing for federated training of language models with hundreds
of millions, and even billions, of parameters. Our experimental results show
that algorithms like FedAvg operate more as meta-learning methods than as
empirical risk minimization methods at this scale, suggesting their utility in
downstream personalization and task-specific adaptation. Dataset Grouper is
available at https://github.com/google-research/dataset_grouper.
- Abstract(参考訳): 我々は,大規模なグループ構造化(フェデレート)データセットを作成するためのライブラリであるDataset Grouperを導入し,基礎モデルのスケールでのフェデレーション学習シミュレーションを可能にする。
このライブラリは、ユーザ指定のパーティションに基づいて、既存のデータセットのグループ構造バージョンの作成を容易にするとともに、既存のソフトウェアフレームワークにプラグイン可能な、さまざまな有用な異種データセットに直接つながる。
Dataset Grouperには3つの利点がある。
まず、単一のグループのデータセットでさえメモリに収まるには大きすぎる設定にスケールします。
第2に、基本(非分割)データセットの選択とパーティション定義の両方において、柔軟性を提供します。
最後に、フレームワークに依存しない。
我々は、Dataset Grouperが、以前の作業よりも桁違いに大きいデータセット上で、大規模なフェデレートされた言語モデリングシミュレーションを可能にし、数十億のパラメータを持つ言語モデルのフェデレーショントレーニングを可能にすることを実証的に実証した。
実験の結果,FedAvgのようなアルゴリズムは,この規模の経験的リスク最小化手法よりもメタラーニング手法として機能し,下流のパーソナライズやタスク固有の適応に有用であることが示唆された。
dataset grouperはhttps://github.com/google-research/dataset_grouperで入手できる。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models [48.484485609995986]
フェデレートラーニングにより、複数のパーティがデータを直接共有することなく、協力的に大きな言語モデルをトレーニングできるようになった(FedLLM)。
現在、FedLLMの現実的なデータセットやベンチマークは存在しない。
我々は,8つのトレーニング手法,4つのトレーニングデータセット,6つの評価指標を含むFedLLM-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-07T11:19:30Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Towards More Practical Group Activity Detection: A New Benchmark and Model [61.39427407758131]
グループアクティビティ検出(グループアクティビティ検出、英: Group Activity Detection、GAD)は、ビデオにおいて、各グループのメンバを特定し、同時にグループのアクティビティを分類するタスクである。
私たちはCaf'eと呼ばれる新しいデータセットを提示し、より実用的なシナリオとメトリクスを提示します。
また、未知数のグループと潜在グループメンバーを効率的に効率的に扱う新しいGADモデルを提案する。
論文 参考訳(メタデータ) (2023-12-05T16:48:17Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings [13.097523786733872]
変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。
ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。
すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
論文 参考訳(メタデータ) (2021-12-07T10:47:07Z) - Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。
我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。
パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文 参考訳(メタデータ) (2021-09-28T17:08:22Z) - Learning Multi-Attention Context Graph for Group-Based Re-Identification [214.84551361855443]
オーバーラップしていないカメラシステムを介して人々のグループを再識別または取得することを学ぶことは、ビデオ監視において重要なアプリケーションです。
本研究では,グループre-idというグループを識別するためのコンテキスト情報の利用を検討する。
本研究では,グループベースリドタスクを同時に処理するグラフニューラルネットワークに基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T09:57:47Z) - Cross-Dataset Collaborative Learning for Semantic Segmentation [17.55660581677053]
我々は、Cross-Dataset Collaborative Learning (CDCL) と呼ばれる、単純で柔軟で汎用的なセマンティックセグメンテーション手法を提案する。
複数のラベル付きデータセットを付与することで、各データセット上の特徴表現の一般化と識別を改善することを目指しています。
単一データセットとクロスデータセットの設定で,Cityscapes,BDD100K,CamVid,COCO Stuffという4つの多様なデータセットに対して,広範な評価を行う。
論文 参考訳(メタデータ) (2021-03-21T09:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。