論文の概要: CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes
- arxiv url: http://arxiv.org/abs/2310.09761v1
- Date: Sun, 15 Oct 2023 07:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:22:11.469553
- Title: CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes
- Title(参考訳): CAPro: クロスモダリティ指向プロトタイプによるWeb監視型学習
- Authors: Yulei Qin, Xingyu Chen, Yunhang Shen, Chaoyou Fu, Yun Gu, Ke Li, Xing
Sun, Rongrong Ji
- Abstract要約: クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
- 参考スコア(独自算出の注目度): 93.71909293023663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Webly supervised learning has attracted increasing attention for its
effectiveness in exploring publicly accessible data at scale without manual
annotation. However, most existing methods of learning with web datasets are
faced with challenges from label noise, and they have limited assumptions on
clean samples under various noise. For instance, web images retrieved with
queries of tiger cat (a cat species) and drumstick (a musical instrument) are
almost dominated by images of tigers and chickens, which exacerbates the
challenge of fine-grained visual concept learning. In this case, exploiting
both web images and their associated texts is a requisite solution to combat
real-world noise. In this paper, we propose Cross-modality Aligned Prototypes
(CAPro), a unified prototypical contrastive learning framework to learn visual
representations with correct semantics. For one thing, we leverage textual
prototypes, which stem from the distinct concept definition of classes, to
select clean images by text matching and thus disambiguate the formation of
visual prototypes. For another, to handle missing and mismatched noisy texts,
we resort to the visual feature space to complete and enhance individual texts
and thereafter improve text matching. Such semantically aligned visual
prototypes are further polished up with high-quality samples, and engaged in
both cluster regularization and noise removal. Besides, we propose collective
bootstrapping to encourage smoother and wiser label reference from
appearance-similar instances in a manner of dictionary look-up. Extensive
experiments on WebVision1k and NUS-WIDE (Web) demonstrate that CAPro well
handles realistic noise under both single-label and multi-label scenarios.
CAPro achieves new state-of-the-art performance and exhibits robustness to
open-set recognition. Codes are available at https://github.com/yuleiqin/capro.
- Abstract(参考訳): ウェブ教師あり学習は、手動のアノテーションなしで大規模に公開アクセス可能なデータを探索する上で、その効果に注目が集まっている。
しかしながら、既存のwebデータセットを用いた学習方法はラベルノイズの課題に直面しており、様々なノイズ下でクリーンサンプルの仮定は限られている。
例えば、トラ猫(猫の種)とドラムスティック(楽器)のクェリで検索されたウェブ画像は、ほとんどトラや鶏の画像によって支配されており、よりきめ細かい視覚概念学習の課題が悪化している。
この場合、webイメージとその関連テキストの両方を利用するのは、現実世界のノイズと戦うための必要な解決策です。
本稿では,視覚表現を正しく学習するための統一型比較学習フレームワークであるcross-modality aligned prototypes (capro)を提案する。
例えば、クラスの概念定義から派生したテキストプロトタイプを利用して、テキストマッチングによってクリーンなイメージを選択することで、ビジュアルプロトタイプの形成を曖昧にする。
もうひとつは、欠落したノイズのあるテキストを扱うために、視覚的特徴空間を利用して個々のテキストを補完し、拡張し、その後、テキストマッチングを改善します。
このような意味的に整合した視覚プロトタイプは、高品質なサンプルによってさらに洗練され、クラスタの正規化とノイズ除去の両方に携わる。
さらに,外見類似事例からのよりスムーズで賢明なラベル参照を辞書検索の方法で促進するブートストラップを提案する。
WebVision1k と NUS-WIDE (Web) に関する大規模な実験は、CAPro がシングルラベルとマルチラベルの両方のシナリオで現実的なノイズをうまく処理していることを示している。
CAProは新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
コードはhttps://github.com/yuleiqin/caproで入手できる。
関連論文リスト
- Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Text as Image: Learning Transferable Adapter for Multi-Label
Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。
このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文 参考訳(メタデータ) (2023-12-07T09:22:20Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Self-supervised Context-aware Style Representation for Expressive Speech
Synthesis [23.460258571431414]
本稿では,平文からスタイル表現を自己教師型で学習するための新しいフレームワークを提案する。
感情のレキシコンを活用し、対照的な学習と深いクラスタリングを使用する。
本手法は,音声ブック音声におけるドメイン内およびドメイン外テストセットの主観的評価に基づいて,改善された結果を実現する。
論文 参考訳(メタデータ) (2022-06-25T05:29:48Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。