Fugu-MT 論文翻訳(概要): On Pretraining Data Diversity for Self-Supervised Learning

論文の概要: On Pretraining Data Diversity for Self-Supervised Learning

arxiv url: http://arxiv.org/abs/2403.13808v3
Date: Thu, 18 Jul 2024 09:15:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 21:11:56.697677
Title: On Pretraining Data Diversity for Self-Supervised Learning
Title（参考訳）: 自己指導型学習のためのデータ多様性の事前学習について
Authors: Hasan Abed Al Kader Hammoud, Tuhin Das, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem,
Abstract要約: 我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
参考スコア（独自算出の注目度）: 57.91495006862553
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We explore the impact of training with more diverse datasets, characterized by the number of unique samples, on the performance of self-supervised learning (SSL) under a fixed computational budget. Our findings consistently demonstrate that increasing pretraining data diversity enhances SSL performance, albeit only when the distribution distance to the downstream data is minimal. Notably, even with an exceptionally large pretraining data diversity achieved through methods like web crawling or diffusion-generated data, among other ways, the distribution shift remains a challenge. Our experiments are comprehensive with seven SSL methods using large-scale datasets such as ImageNet and YFCC100M amounting to over 200 GPU days. Code and trained models are available at https://github.com/hammoudhasan/DiversitySSL
Abstract（参考訳）: 我々は,より多様なデータセットを用いたトレーニングが,固定された計算予算下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。以上の結果から,事前学習データの多様性の増大はSSLの性能を向上させるが,下流データへの分布距離が最小である場合に限る。特に、Webクローリングや拡散生成データといった手法によって達成された、非常に大きな事前学習データ多様性であっても、分散シフトは依然として課題である。実験では,ImageNetやYFCC100Mといった大規模データセットを用いた7つのSSL手法を総合的に検討した。コードとトレーニングされたモデルはhttps://github.com/hammoudhasan/DiversitySSLで入手できる。

関連論文リスト

Entropy-Guided Agreement-Diversity: A Semi-Supervised Active Learning Framework for Fetal Head Segmentation in Ultrasound [4.594829845106234]
胎児の頭部分節のための2段階アクティブラーニングサンプリングであるEntropy-Guided Agreement-Diversity(EGAD)を提案する。実験では、SSL-EGADは胎児の頭分割のための2つの公開データセットで平均94.57%と96.32%のDiceスコアを達成している。
論文参考訳（メタデータ） (2026-01-24T13:23:18Z)
Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels [96.35283762778137]
我々は、強化学習のためのスケーラブルなデータエンジンであるWebscale-RLパイプラインを紹介した。 9ドメイン以上にわたる120万のサンプルを含むWebscale-RLデータセットを構築した。我々の研究は、RLを事前学習レベルに拡張するための実行可能なパスを示し、より有能で効率的な言語モデルを可能にします。
論文参考訳（メタデータ） (2025-10-07T22:30:59Z)
Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks [10.932880269282014]
SSL事前トレーニングのための最初の有効なDD法を提案する。具体的には、SSLでトレーニングされたより大きな教師モデルの表現に合わせるために、小さな学生モデルを訓練する。 KDの目的はSSLよりもかなり分散度が低いため、我々の手法は、高品質エンコーダの事前訓練に成功できる合成データセットを生成することができる。
論文参考訳（メタデータ） (2024-10-03T00:39:25Z)
A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。 SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文参考訳（メタデータ） (2024-07-16T23:17:36Z)
On Improving the Algorithm-, Model-, and Data- Efficiency of Self-Supervised Learning [18.318758111829386]
非パラメトリックなインスタンス識別に基づく効率的なシングルブランチSSL手法を提案する。また,確率分布と正方形根版とのKL分散を最小限に抑える新しい自己蒸留損失を提案する。
論文参考訳（メタデータ） (2024-04-30T06:39:04Z)
Federated Multilingual Models for Medical Transcript Analysis [11.877236847857336]
大規模多言語モデルを学習するための連合学習システムを提案する。トレーニングデータはすべて、中央に送信されることはない。本研究では,グローバルモデルの性能を,局所的に行うトレーニングステップによってさらに向上させることができることを示す。
論文参考訳（メタデータ） (2022-11-04T01:07:54Z)
Semi-supervised Learning with Deterministic Labeling and Large Margin Projection [25.398314796157933]
ラベル付きデータの集中度と多様性は、半教師付き学習(SSL)の性能に非常に影響を与える本研究は,OCF構造に基づいて認識される最小の安定かつ最も分散したデータに対して,カーネル化された大規模マージン計量を学習することを目的とする。 OLFに基づくSSLモデルの精度と性能の安定性は, ベースライン法に比べて大幅に向上した。
論文参考訳（メタデータ） (2022-08-17T04:09:35Z)
DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文参考訳（メタデータ） (2022-03-17T02:38:49Z)
Self-Supervised Learning of Graph Neural Networks: A Unified Review [50.71341657322391]
ラベルなしサンプルを多用する新たなパラダイムとして,自己教師型学習が登場している。 SSLを用いたグラフニューラルネットワーク(GNNs)のトレーニング方法の統一レビューを提供します。 gnnに対するssl手法の処理は,様々な手法の類似性と相違に光を当て,新しい手法やアルゴリズムの開発段階を定めている。
論文参考訳（メタデータ） (2021-02-22T03:43:45Z)
Quasi-Global Momentum: Accelerating Decentralized Deep Learning on Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2021-02-09T11:27:14Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
Federated Visual Classification with Real-World Data Distribution [9.564468846277366]
我々は,FedAvg(Federated Averaging)アルゴリズムのベンチマークを用いて,実世界のデータ分布が分散学習に与える影響を特徴付ける。種別とランドマーク分類のための2つの新しい大規模データセットを導入し,ユーザ毎のデータ分割を現実的に行う。また、2つの新しいアルゴリズム(FedVC、FedIR)も開発しています。
論文参考訳（メタデータ） (2020-03-18T07:55:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。