Fugu-MT 論文翻訳(概要): Towards Federated Foundation Models: Scalable Dataset Pipelines for Group-Structured Learning

論文の概要: Towards Federated Foundation Models: Scalable Dataset Pipelines for Group-Structured Learning

arxiv url: http://arxiv.org/abs/2307.09619v1
Date: Tue, 18 Jul 2023 20:27:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-20 16:16:44.963026
Title: Towards Federated Foundation Models: Scalable Dataset Pipelines for Group-Structured Learning
Title（参考訳）: 連合基盤モデルに向けて: グループ構造学習のためのスケーラブルなデータセットパイプライン
Authors: Zachary Charles, Nicole Mitchell, Krishna Pillutla, Michael Reneer, Zachary Garrett
Abstract要約: 大規模なグループ構造化(フェデレート)データセットを作成するためのライブラリを導入します。このライブラリは、ユーザが指定したパーティションに基づいて、既存のデータセットのグループ構造化バージョンを作成することができる。
参考スコア（独自算出の注目度）: 2.099922236065961
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a library, Dataset Grouper, to create large-scale group-structured (e.g., federated) datasets, enabling federated learning simulation at the scale of foundation models. This library allows the creation of group-structured versions of existing datasets based on user-specified partitions, and directly leads to a variety of useful heterogeneous datasets that can be plugged into existing software frameworks. Dataset Grouper offers three key advantages. First, it scales to settings where even a single group's dataset is too large to fit in memory. Second, it provides flexibility, both in choosing the base (non-partitioned) dataset and in defining partitions. Finally, it is framework-agnostic. We empirically demonstrate that Dataset Grouper allows for large-scale federated language modeling simulations on datasets that are orders of magnitude larger than in previous work. Our experimental results show that algorithms like FedAvg operate more as meta-learning methods than as empirical risk minimization methods at this scale, suggesting their utility in downstream personalization and task-specific adaptation.
Abstract（参考訳）: 我々は,大規模なグループ構造化(フェデレート)データセットを作成するために,Dataset Grouperというライブラリを導入し,基礎モデルの規模でのフェデレーション学習シミュレーションを可能にする。このライブラリは、ユーザが指定したパーティションに基づいて、既存のデータセットのグループ構造バージョンを作成することができ、既存のソフトウェアフレームワークにプラグイン可能な、様々な有用な異種データセットに直接つながる。 Dataset Grouperには3つの利点がある。まず、単一のグループのデータセットでさえメモリに収まるには大きすぎる設定にスケールします。第2に、基本(非分割)データセットの選択とパーティション定義の両方において、柔軟性を提供します。最後に、フレームワークに依存しない。我々は、Dataset Grouperが、以前よりも桁違いに大きいデータセット上で、大規模なフェデレーション言語モデリングシミュレーションを可能にすることを実証的に実証した。実験の結果,FedAvgのようなアルゴリズムは,この規模の経験的リスク最小化手法よりもメタラーニング手法として機能し,下流のパーソナライズやタスク固有の適応に有用であることが示唆された。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
ZEUS: Zero-shot Embeddings for Unsupervised Separation of Tabular Data [7.121259735505479]
ZEUSは、追加のトレーニングや微調整なしに新しいデータセットをクラスタリングできる自己完結型モデルである。複雑なデータセットを意味のあるコンポーネントに分解して動作し、効果的にクラスタ化することができる。
論文参考訳（メタデータ） (2025-05-15T20:52:26Z)
Group-Level Data Selection for Efficient Pretraining [49.18903821780051]
Group-MATESは、言語モデル事前訓練の速度品質フロンティアを最適化する効率的なグループレベルのデータ選択手法である。 Group-MATESは、リレーショナルデータの影響モデルを用いてコストの高いグループレベルの選択をパラメータ化する。
論文参考訳（メタデータ） (2025-02-20T16:34:46Z)
Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文参考訳（メタデータ） (2024-10-14T15:48:09Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models [48.484485609995986]
フェデレートラーニングにより、複数のパーティがデータを直接共有することなく、協力的に大きな言語モデルをトレーニングできるようになった(FedLLM)。現在、FedLLMの現実的なデータセットやベンチマークは存在しない。我々は,8つのトレーニング手法,4つのトレーニングデータセット,6つの評価指標を含むFedLLM-Benchを提案する。
論文参考訳（メタデータ） (2024-06-07T11:19:30Z)
Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文参考訳（メタデータ） (2024-04-22T17:15:32Z)
Towards More Practical Group Activity Detection: A New Benchmark and Model [61.39427407758131]
グループアクティビティ検出(グループアクティビティ検出、英: Group Activity Detection、GAD)は、ビデオにおいて、各グループのメンバを特定し、同時にグループのアクティビティを分類するタスクである。私たちはCaf'eと呼ばれる新しいデータセットを提示し、より実用的なシナリオとメトリクスを提示します。また、未知数のグループと潜在グループメンバーを効率的に効率的に扱う新しいGADモデルを提案する。
論文参考訳（メタデータ） (2023-12-05T16:48:17Z)
infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。 infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2023-05-30T18:12:48Z)
Combining datasets to increase the number of samples and improve model fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文参考訳（メタデータ） (2022-10-11T06:06:37Z)
Parsing with Pretrained Language Models, Multiple Datasets, and Dataset Embeddings [13.097523786733872]
変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
論文参考訳（メタデータ） (2021-12-07T10:47:07Z)
Single-dataset Experts for Multi-dataset Question Answering [6.092171111087768]
複数のデータセットにネットワークをトレーニングして、新たなデータセットを一般化し、転送します。我々のアプローチは、単一データセットの専門家の集合を用いて、マルチデータセットの質問応答をモデル化することである。パラメータ警告に基づく単純な手法は、ゼロショットの一般化と少数ショットの転送性能の向上につながる。
論文参考訳（メタデータ） (2021-09-28T17:08:22Z)
Learning Multi-Attention Context Graph for Group-Based Re-Identification [214.84551361855443]
オーバーラップしていないカメラシステムを介して人々のグループを再識別または取得することを学ぶことは、ビデオ監視において重要なアプリケーションです。本研究では,グループre-idというグループを識別するためのコンテキスト情報の利用を検討する。本研究では,グループベースリドタスクを同時に処理するグラフニューラルネットワークに基づく新しい統合フレームワークを提案する。
論文参考訳（メタデータ） (2021-04-29T09:57:47Z)
Cross-Dataset Collaborative Learning for Semantic Segmentation [17.55660581677053]
我々は、Cross-Dataset Collaborative Learning (CDCL) と呼ばれる、単純で柔軟で汎用的なセマンティックセグメンテーション手法を提案する。複数のラベル付きデータセットを付与することで、各データセット上の特徴表現の一般化と識別を改善することを目指しています。単一データセットとクロスデータセットの設定で,Cityscapes,BDD100K,CamVid,COCO Stuffという4つの多様なデータセットに対して,広範な評価を行う。
論文参考訳（メタデータ） (2021-03-21T09:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。