Fugu-MT 論文翻訳(概要): CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning

論文の概要: CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning

arxiv url: http://arxiv.org/abs/2405.19547v1
Date: Wed, 29 May 2024 22:19:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 18:56:18.067283
Title: CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning
Title（参考訳）: マルチモーダルコントラスト学習のためのCLIPLosとノルムに基づくデータ選択法
Authors: Yiping Wang, Yifang Chen, Wendan Yan, Alex Fang, Wenjing Zhou, Kevin Jamieson, Simon Shaolei Du,
Abstract要約: データ選択は、大規模ビジュアル言語モデル(例えば、CLIP)のコア問題として浮上した。 3つの主要なデータ選択アプローチは、(1)データ選択を支援するために外部のCLIPモデルを活用すること、(2)高品質なデータを選択するのにより効果的な新しいCLIPスタイルの埋め込みモデルをトレーニングすること、(3)より優れたメトリクスや戦略をCLIP埋め込みに普遍的に適用することである。
参考スコア（独自算出の注目度）: 19.100022935748225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data selection has emerged as a core issue for large-scale visual-language model pretaining (e.g., CLIP), particularly with noisy web-curated datasets. Three main data selection approaches are: (1) leveraging external non-CLIP models to aid data selection, (2) training new CLIP-style embedding models that are more effective at selecting high-quality data than the original OpenAI CLIP model, and (3) designing better metrics or strategies universally applicable to any CLIP embedding without requiring specific model properties (e.g., CLIPScore is one popular metric). While the first two approaches have been extensively studied, the third remains under-explored. In this paper, we advance the third approach by proposing two new methods. Firstly, instead of classical CLIP scores that only consider the alignment between two modalities from a single sample, we introduce negCLIPLoss, a CLIP loss-inspired method that adds the alignment between one sample and its contrastive pairs as an extra normalization term for better quality measurement. Secondly, when downstream tasks are known, we propose a new norm-based metric, NormSim, to measure the similarity between pretraining data and target data. We test our methods on the data selection benchmark, DataComp~\cite{gadre2023datacomp}. Compared to the best baseline using only OpenAI's CLIP-L/14, our methods achieve a 5.3\% improvement on ImageNet-1k and a 2.8\% improvement on 38 downstream evaluation tasks. Moreover, both negCLIPLoss and NormSim are compatible with existing techniques. By combining our methods with the current best methods DFN~\cite{fang2023data} and HYPE~\cite{kim2024hype}, we can boost average performance on downstream tasks by 0.9\%, achieving a new state-of-the-art.
Abstract（参考訳）: データ選択は、大規模なビジュアル言語モデル(例えば、CLIP)、特に騒がしいWebキュレートデータセットにおいて、中心的な問題として現れている。 3つの主要なデータ選択アプローチは、(1)外部の非CLIPモデルを活用してデータ選択を支援すること、(2)元々のOpenAI CLIPモデルよりも高品質なデータを選択するのに効果的であるCLIPスタイルの埋め込みモデルをトレーニングすること、(3)特定のモデルプロパティを必要とせずにCLIP埋め込みに適用可能なより良いメトリクスや戦略を設計すること(例えば、CLIPScoreは人気のあるメトリックである)である。最初の2つのアプローチは広く研究されているが、第3のアプローチは未調査のままである。本稿では,2つの新しい手法を提案することによって,第3のアプローチを推し進める。まず,1つのサンプルから2つのモダリティのアライメントのみを考慮する古典的なCLIPスコアの代わりに,1つのサンプルとその対照的なペア間のアライメントを追加するCLIPロスインスパイア法であるnegCLIPLossを導入する。第二に、下流タスクが分かっている場合、事前学習データと対象データとの類似性を測定するために、ノルムシムという新しい基準ベースの指標を提案する。我々は、データ選択ベンチマークDataComp~\cite{gadre2023datacomp}でメソッドをテストする。 OpenAIのCLIP-L/14のみを使用した最高のベースラインと比較すると,ImageNet-1kでは5.3倍,38ダウンストリーム評価タスクでは2.8倍の改善を実現している。さらに、negCLIPLossとNormSimはどちらも既存の技術と互換性がある。現在のベストメソッドDFN~\cite{fang2023data} とHYPE~\cite{kim2024hype} を組み合わせることで、ダウンストリームタスクにおける平均パフォーマンスを0.9\%向上させ、新しい最先端を実現することができます。

関連論文リスト

Composable Cross-prompt Essay Scoring by Merging Models [7.5702468122067685]
クロスプロンプト自動エッセイは、典型的にはすべてのソースプロンプトで共同でモデルを訓練する。本稿では、データセットの代わりに個別に訓練されたソースモデルのパラメータを選択的にマージする、ソースフリー適応手法を提案する。
論文参考訳（メタデータ） (2025-05-24T06:28:21Z)
TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification [12.558701595138928]
対照的な言語-画像事前訓練は、画像分類において印象的なゼロショット性能を示した。最先端の手法は、しばしばCLIPのパフォーマンスを最適化するために、プロンプトラーニングやアダプタベースのチューニングのような微調整技術に依存している。単段階 LMM Augmented CLIP (SLAC) と2段階 LMM Augmented CLIP (TLAC) を導入した。私たちのモデルは、ImageNet、SUN397、Caltech101を含む11のベース・ツー・ノーベルデータセットのうち9つの精度で達成しました。
論文参考訳（メタデータ） (2025-03-15T17:11:41Z)
A Novel Adaptive Fine-Tuning Algorithm for Multimodal Models: Self-Optimizing Classification and Selection of High-Quality Datasets in Remote Sensing [46.603157010223505]
マルチモーダル大モデルに対する適応的な微調整アルゴリズムを提案する。我々は、GeoChatマルチモーダルリモートセンシングデータセットの3分の1を使用して、2台の3090 GPU上でモデルをトレーニングする。このモデルはUCMercedおよびAID評価データセットで89.86と77.19のスコアを得た。
論文参考訳（メタデータ） (2024-09-20T09:19:46Z)
Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文参考訳（メタデータ） (2024-03-01T15:14:47Z)
Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-13T04:16:40Z)
DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。 LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文参考訳（メタデータ） (2023-10-02T17:52:24Z)
Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。 HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)
DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。我々のベンチマークは、複数の計算スケールから成っている。特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文参考訳（メタデータ） (2023-04-27T11:37:18Z)
Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。 11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文参考訳（メタデータ） (2023-04-03T17:58:54Z)
Boosting Low-Data Instance Segmentation by Unsupervised Pre-training with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文参考訳（メタデータ） (2023-02-02T15:49:03Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文参考訳（メタデータ） (2022-10-11T20:20:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。