Fugu-MT 論文翻訳(概要): Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights

論文の概要: Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights

arxiv url: http://arxiv.org/abs/2405.21070v1
Date: Fri, 31 May 2024 17:57:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 13:09:46.675105
Title: Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights
Title（参考訳）: データ不均衡を超えた一般化: 転送可能なインサイトのためのCLIPに関する制御された研究
Authors: Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi,
Abstract要約: 大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。本研究は,データ不均衡を超えてCLIPの一般化可能性のメカニズムを明らかにし,研究コミュニティに伝達可能な洞察を提供する。
参考スコア（独自算出の注目度）: 67.72413262980272
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Severe data imbalance naturally exists among web-scale vision-language datasets. Despite this, we find CLIP pre-trained thereupon exhibits notable robustness to the data imbalance compared to supervised learning, and demonstrates significant effectiveness in learning generalizable representations. With an aim to investigate the reasons behind this finding, we conduct controlled experiments to study various underlying factors, and reveal that CLIP's pretext task forms a dynamic classification problem wherein only a subset of classes is present in training. This isolates the bias from dominant classes and implicitly balances the learning signal. Furthermore, the robustness and discriminability of CLIP improve with more descriptive language supervision, larger data scale, and broader open-world concepts, which are inaccessible to supervised learning. Our study not only uncovers the mechanisms behind CLIP's generalizability beyond data imbalance but also provides transferable insights for the research community. The findings are validated in both supervised and self-supervised learning, enabling models trained on imbalanced data to achieve CLIP-level performance on diverse recognition tasks. Code will be available at: https://github.com/CVMI-Lab/clip-beyond-tail.
Abstract（参考訳）: 大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。これにもかかわらず、プレトレーニングされたCLIPは教師付き学習と比較してデータ不均衡に対して顕著な堅牢性を示し、一般化可能な表現の学習において有意な効果を示す。本研究は,本研究の背景にある諸要因を解明するための制御実験を行い,CLIPのプレテキストタスクが,授業のサブセットのみが存在するような動的分類問題を形成していることを明らかにする。これにより、バイアスは支配的なクラスから分離され、暗黙的に学習信号のバランスをとる。さらに、CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善され、教師付き学習にはアクセスできない。データ不均衡を超えてCLIPの一般化可能性の背後にあるメカニズムを明らかにするだけでなく、研究コミュニティに伝達可能な洞察を提供する。これらの結果は教師付き学習と自己教師型学習の両方で検証され、不均衡なデータに基づいてトレーニングされたモデルにより、多様な認識タスクにおいてCLIPレベルのパフォーマンスを達成することができる。コードは、https://github.com/CVMI-Lab/clip-beyondtail.comから入手できる。

関連論文リスト

Mind the Gap: Preserving and Compensating for the Modality Gap in CLIP-Based Continual Learning [11.50324946279326]
コントラスト言語-画像事前訓練モデル(CLIP)は、様々な下流タスクに強い能力を示す。視覚言語事前学習モデルの微調整におけるモダリティギャップの変化を分析する。クラス増分学習におけるCLIPの性能を向上する単純なMG-CLIPを提案する。
論文参考訳（メタデータ） (2025-07-12T02:28:42Z)
What Matters for In-Context Learning: A Balancing Act of Look-up and In-Weight Learning [42.8453045943264]
ICLには,データシーケンスにおける概念的反復が不可欠であることを示す。また、ICLの出現は、重み付き学習目標とコンテキスト内問題解決能力のバランスに依存することを示した。
論文参考訳（メタデータ） (2025-01-09T09:45:05Z)
Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [19.982853959240497]
CLIPのような事前学習型視覚言語埋め込みモデルは、継続学習(CL)において広く採用され、検証されている。既存のCL法は主に、事前学習モデル(PTM)から分離されたコンポーネントを用いた連続的な下流適応に焦点を当てている。動的ランク選択ロラ(CoDyRA)に基づくCLIPの汎用的で効率的なCLアプローチを提案する。
論文参考訳（メタデータ） (2024-12-01T23:41:42Z)
Does the Definition of Difficulty Matter? Scoring Functions and their Role for Curriculum Learning [42.4526628515253]
CL(Curriculum Learning)は、サンプルを学習プロセスに徐々に導入する機械学習トレーニング戦略である。サンプル難易度推定のための最も一般的なスコアリング関数のロバスト性と類似性について検討する。その結果,ランダムシード間のスコアリング関数のロバスト性はCL性能と正の相関関係があることが判明した。
論文参考訳（メタデータ） (2024-11-01T18:55:31Z)
A Survey of the Self Supervised Learning Mechanisms for Vision Transformers [5.152455218955949]
視覚タスクにおける自己教師あり学習(SSL)の適用は注目されている。 SSL手法を体系的に分類する包括的分類法を開発した。 SSLの背後にあるモチベーションについて議論し、人気のある事前トレーニングタスクをレビューし、この分野の課題と進歩を強調します。
論文参考訳（メタデータ） (2024-08-30T07:38:28Z)
Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations [6.990891188823598]
本稿では,視覚言語学習と差別的・生成的自己スーパービジョンを組み合わせたフレームワークであるHarmonyを紹介する。本フレームワークは,自己教師型学習パスにおけるネガティブな例に頼らず,Webスクラッドデータに特化して動作するように設計されている。様々な視覚的下流タスクにおけるハーモニーの評価を行い、ベースラインCLIPを著しく上回ります。
論文参考訳（メタデータ） (2024-05-23T07:18:08Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
On the Effectiveness of Equivariant Regularization for Robust Online Continual Learning [17.995662644298974]
継続的な学習(CL)アプローチは、このギャップを埋めるために、以前のタスクと将来のタスクの両方への知識の伝達を容易にする。近年の研究では、多種多様な下流タスクをうまく一般化できる多目的モデルを作成することができることが示されている。等変正則化(CLER)による連続学習を提案する。
論文参考訳（メタデータ） (2023-05-05T16:10:31Z)
Stabilizing and Improving Federated Learning with Non-IID Data and Client Dropout [15.569507252445144]
ラベル分布スキューによるデータヘテロジェニーティは、フェデレート学習におけるモデル性能を制限する重要な障害であることが示されている。クロスエントロピー損失を計算するための事前校正ソフトマックス関数を導入することで、シンプルで効果的なフレームワークを提案する。非IIDデータとクライアントドロップアウトの存在下で、既存のベースラインよりも優れたモデル性能を示す。
論文参考訳（メタデータ） (2023-03-11T05:17:59Z)
Learning Deep Representations via Contrastive Learning for Instance Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文参考訳（メタデータ） (2022-09-28T04:36:34Z)
Beyond Supervised Continual Learning: a Review [69.9674326582747]
連続学習(Continuous Learning, CL)は、定常データ分布の通常の仮定を緩和または省略する機械学習のフレーバーである。データ分布の変化は、いわゆる破滅的な忘れ(CF)効果、すなわち、過去の知識の突然の喪失を引き起こす可能性がある。本稿では、CLを他の環境で研究する文献をレビューする。例えば、監督を減らした学習、完全に教師なしの学習、強化学習などである。
論文参考訳（メタデータ） (2022-08-30T14:44:41Z)
Using Representation Expressiveness and Learnability to Evaluate Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。 CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。 CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文参考訳（メタデータ） (2022-06-02T19:05:13Z)
SLIP: Self-supervision meets Language-Image Pre-training [79.53764315471543]
自己指導型学習が視覚表現学習における言語指導の活用に役立つかどうかを考察する。自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。 SLIPは、自己監督や言語監督よりも優れたパフォーマンスを享受しています。
論文参考訳（メタデータ） (2021-12-23T18:07:13Z)
Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文参考訳（メタデータ） (2021-10-11T06:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。