Fugu-MT 論文翻訳(概要): CLIP Adaptation by Intra-modal Overlap Reduction

論文の概要: CLIP Adaptation by Intra-modal Overlap Reduction

arxiv url: http://arxiv.org/abs/2409.11338v1
Date: Tue, 17 Sep 2024 16:40:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 15:37:15.544052
Title: CLIP Adaptation by Intra-modal Overlap Reduction
Title（参考訳）: モード内オーバーラップ低減によるCLIP適応
Authors: Alexey Kravets, Vinay Namboodiri,
Abstract要約: 画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。 Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
参考スコア（独自算出の注目度）: 1.2277343096128712
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Numerous methods have been proposed to adapt a pre-trained foundational CLIP model for few-shot classification. As CLIP is trained on a large corpus, it generalises well through adaptation to few-shot classification. In this work, we analyse the intra-modal overlap in image space in terms of embedding representation. Our analysis shows that, due to contrastive learning, embeddings from CLIP model exhibit high cosine similarity distribution overlap in the image space between paired and unpaired examples affecting the performance of few-shot training-free classification methods which rely on similarity in the image space for their predictions. To tackle intra-modal overlap we propose to train a lightweight adapter on a generic set of samples from the Google Open Images dataset demonstrating that this improves accuracy for few-shot training-free classification. We validate our contribution through extensive empirical analysis and demonstrate that reducing the intra-modal overlap leads to a) improved performance on a number of standard datasets, b) increased robustness to distribution shift and c) higher feature variance rendering the features more discriminative for downstream tasks.
Abstract（参考訳）: 数発の分類のために、事前訓練された基礎的なCLIPモデルを適用するために多くの方法が提案されている。 CLIPは大規模なコーパスで訓練されているため、数発の分類に適応することで、うまく一般化される。本研究では,画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。比較学習により,CLIPモデルからの埋め込みは画像空間に高いコサイン類似度分布を示す。モーダル内のオーバーラップに対処するために、Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングすることを提案する。我々は、広範囲な経験的分析を通して、我々の貢献を検証し、モーダル内重なりを減少させることが証明される。 a) 多くの標準データセットのパフォーマンスの改善。ロ配電シフトに対する堅牢性の向上及び c) 下流タスクに対してより差別的な特徴をレンダリングする高機能分散。

関連論文リスト

Advancing Image Classification with Discrete Diffusion Classification Modeling [25.92509040578864]
DiDiCMは拡散に基づく手法を利用して入力画像上に条件付きクラスラベルの後方分布をモデル化する新しいフレームワークである。本稿では,ImageNetデータセットの分類精度がベースラインよりも高くなり,タスクの難易度が高まるにつれて精度が向上することを示す。
論文参考訳（メタデータ） (2025-11-25T12:42:26Z)
Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA) 我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-11-15T08:39:22Z)
Few-shot crack image classification using clip based on bayesian optimization [3.4684590437911478]
そこで本研究では,CLIPとベイズ最適化に基づく新しい数発き裂画像分類モデルを提案する。マルチモーダル情報とベイズ的アプローチを組み合わせることで、少数のトレーニングサンプルにおいてクラック画像の効率的な分類を実現する。
論文参考訳（メタデータ） (2025-03-01T07:04:54Z)
Unsupervised Representation Learning by Balanced Self Attention Matching [2.3020018305241337]
本稿では,BAMと呼ばれる画像特徴を埋め込む自己教師型手法を提案する。我々は,これらの分布とグローバルな均衡とエントロピー正規化バージョンに一致する損失を最小化することにより,豊かな表現と特徴の崩壊を回避する。半教師付きベンチマークと移動学習ベンチマークの両方において,先行手法と競合する性能を示す。
論文参考訳（メタデータ） (2024-08-04T12:52:44Z)
Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。 CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文参考訳（メタデータ） (2024-07-01T15:58:20Z)
Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文参考訳（メタデータ） (2024-05-27T12:59:35Z)
Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文参考訳（メタデータ） (2024-01-18T10:29:10Z)
Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文参考訳（メタデータ） (2023-09-01T11:15:50Z)
Ortho-Shot: Low Displacement Rank Regularization with Data Augmentation for Few-Shot Learning [23.465747123791772]
少数の分類において、第一の目的は、新しいクラスをうまく一般化する表現を学ぶことである。オルソショット(Ortho-Shot)と呼ばれる効率的な低変位ランク(LDR)正規化戦略を提案する。
論文参考訳（メタデータ） (2021-10-18T14:58:36Z)
A Hierarchical Transformation-Discriminating Generative Model for Few Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文参考訳（メタデータ） (2021-04-29T17:49:48Z)
Weakly supervised segmentation with cross-modality equivariant constraints [7.757293476741071]
弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。私たちのアプローチは、同じ学習条件下で関連する最近の文学を上回ります。
論文参考訳（メタデータ） (2021-04-06T13:14:20Z)
Contrastive Prototype Learning with Augmented Embeddings for Few-Shot Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文参考訳（メタデータ） (2021-01-23T13:22:44Z)
Adaptive Adversarial Logits Pairing [65.51670200266913]
逆行訓練ソリューションであるAdversarial Logits Pairing (ALP)は、脆弱なものに比べて、高い貢献度を少なくする傾向にある。これらの観測により,適応型対数対数対数対数対数対数法 (AALP) を設計し,ALPのトレーニングプロセスとトレーニングターゲットを変更する。 AALPは適応的な機能最適化モジュールと Guided Dropout から構成されており、より少ない高コントリビューション機能を体系的に追求する。
論文参考訳（メタデータ） (2020-05-25T03:12:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。