論文の概要: Diminishing Returns in Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2512.03862v1
- Date: Wed, 03 Dec 2025 15:11:44 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:00:32.026785
- Title: Diminishing Returns in Self-Supervised Learning
- Title(参考訳): 自己監督型学習におけるリターンの最小化
- Authors: Oli Bridge, Huey Sun, Botond Branyicskai-Nagy, Charles D'Ornano, Shomit Basu,
- Abstract要約: 事前トレーニングと微調整がモデルに役立つが、リターンが低下しているのに対して、中間的な微調整は下流のパフォーマンスに有害な影響を及ぼす可能性がある。
この結果から,対象とする事前学習と注意深いデータ選択のメリットが最も大きいことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: While transformer-based architectures have taken computer vision and NLP by storm, they often require a vast amount of parameters and training data to attain strong performance. In this work, we experiment with three distinct pre-training, intermediate fine-tuning, and downstream datasets and training objectives to explore their marginal benefits on a small 5M-parameter vision transformer. We find that while pre-training and fine-tuning always help our model but have diminishing returns, intermediate fine-tuning can actually show harmful impact on downstream performance, potentially due to dissimilarity in task mechanics. Taken together, our results suggest that small-scale ViTs benefit most from targeted pre-training and careful data selection, while indiscriminate stacking of intermediate tasks can waste compute and even degrade performance.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャはコンピュータビジョンとNLPを嵐によって捉えてきたが、強力なパフォーマンスを得るためには大量のパラメータとトレーニングデータを必要とすることが多い。
本研究では,3つの異なる事前学習,中間微調整,下流データセットを実験し,小さな5Mパラメータ・ビジョン・トランスフォーマの限界効果を探索する。
事前学習と微調整がモデルに役立つが、リターンが低下している一方で、中間微調整は、タスク力学の相違により、下流のパフォーマンスに有害な影響を及ぼす可能性がある。
この結果から,対象とする事前学習と注意深いデータ選択のメリットが最も大きいのに対して,中間タスクの無差別な積み重ねは計算を無駄にしたり,性能を低下させる可能性があることが示唆された。
関連論文リスト
- VIRL: Volume-Informed Representation Learning towards Few-shot Manufacturability Estimation [0.0]
本研究は,3次元幾何エンコーダの事前学習のためのボリュームインフォームド表現学習手法であるVIRLを紹介する。
VIRLによって事前訓練されたモデルでは,データ制限による一般化性の向上が大幅に向上した。
論文 参考訳(メタデータ) (2024-06-18T05:30:26Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Lossless Adaptation of Pretrained Vision Models For Robotic Manipulation [25.47207030637466]
一般的な視覚学習タスクで事前訓練された大規模なモデルは、幅広い特殊認識問題に対して有用な表現を提供することができる。
古典的な微調整のこの欠点に対処するために、"ロスレス適応"を導入する。
パラメータ効率の良いアダプタの適切な配置は、凍結した事前訓練された表現とフルエンド・ツー・エンドの微調整の間の性能ギャップを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-04-13T15:06:28Z) - A Closer Look at Self-Supervised Lightweight Vision Transformers [44.44888945683147]
大規模視覚変換器(ViT)の自己教師型学習を事前学習法として実現した。
画像分類タスクと下流密度予測タスクに関する自己教師付き事前学習手法のベンチマークを行った。
バニラ・ライトウェイトなViTでさえ、デリケートなアーキテクチャ設計を持つ以前のSOTAネットワークに匹敵する性能を示している。
論文 参考訳(メタデータ) (2022-05-28T14:14:57Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。