論文の概要: NLIP: Noise-robust Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2212.07086v1
- Date: Wed, 14 Dec 2022 08:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 15:02:29.159351
- Title: NLIP: Noise-robust Language-Image Pre-training
- Title(参考訳): NLIP:ノイズローバスト言語-画像事前学習
- Authors: Runhui Huang, Yanxin Long, Jianhua Han, Hang Xu, Xiwen Liang, Chunjing
Xu, Xiaodan Liang
- Abstract要約: 雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
- 参考スコア(独自算出の注目度): 95.13287735264937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale cross-modal pre-training paradigms have recently shown ubiquitous
success on a wide range of downstream tasks, e.g., zero-shot classification,
retrieval and image captioning. However, their successes highly rely on the
scale and quality of web-crawled data that naturally contain incomplete and
noisy information (e.g., wrong or irrelevant content). Existing works either
design manual rules to clean data or generate pseudo-targets as auxiliary
signals for reducing noise impact, which do not explicitly tackle both the
incorrect and incomplete challenges simultaneously. In this paper, to
automatically mitigate the impact of noise by solely mining over existing data,
we propose a principled Noise-robust Language-Image Pre-training framework
(NLIP) to stabilize pre-training via two schemes: noise-harmonization and
noise-completion. First, in noise-harmonization scheme, NLIP estimates the
noise probability of each pair according to the memorization effect of
cross-modal transformers, then adopts noise-adaptive regularization to
harmonize the cross-modal alignments with varying degrees. Second, in
noise-completion scheme, to enrich the missing object information of text, NLIP
injects a concept-conditioned cross-modal decoder to obtain semantic-consistent
synthetic captions to complete noisy ones, which uses the retrieved visual
concepts (i.e., objects' names) for the corresponding image to guide captioning
generation. By collaboratively optimizing noise-harmonization and
noise-completion schemes, our NLIP can alleviate the common noise effects
during image-text pre-training in a more efficient way. Extensive experiments
show the significant performance improvements of our NLIP using only 26M data
over existing pre-trained models (e.g., CLIP, FILIP and BLIP) on 12 zero-shot
classification datasets, MSCOCO image captioning and zero-shot image-text
retrieval tasks.
- Abstract(参考訳): 大規模なクロスモーダル事前学習パラダイムは、最近、ゼロショット分類、検索、画像キャプションなど、幅広い下流タスクでユビキタスに成功している。
しかし、その成功は、不完全で騒がしい情報(例えば、間違ったコンテンツや無関係なコンテンツ)を自然に含むウェブクローラーデータの規模と品質に大きく依存している。
既存の作業では、データをきれいにするために手動のルールを設計するか、ノイズの影響を減らす補助信号として擬似ターゲットを生成するかのどちらかだ。
本稿では,既存のデータのみをマイニングすることで,ノイズの影響を自動的に軽減するため,ノイズ調和とノイズ補完という2つの手法を用いて,事前学習を安定化する基本手法であるNLIPを提案する。
まず、ノイズハーモニゼーションスキームにおいて、nlipはクロスモーダルトランスフォーマーの記憶効果に従って各ペアのノイズ確率を推定し、次にノイズ適応正規化を採用してクロスモーダルアライメントを異なる次数で調和させる。
第二に、ノイズコンプリートスキームにおいて、nlipは、テキストの欠落しているオブジェクト情報を豊かにするために、概念条件のクロスモーダルデコーダを注入して、検索された視覚概念(すなわち、オブジェクトの名前)を使用してキャプション生成をガイドする。
ノイズハーモナイゼーションとノイズコンプリートスキームを協調的に最適化することで,画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
12のゼロショット分類データセット、MSCOCO画像キャプション、ゼロショット画像テキスト検索タスクにおいて、既存のトレーニング済みモデル(例えば、CLIP、FILIP、BLIP)に対して26万データしか使用せず、NLIPの大幅なパフォーマンス向上が示されている。
関連論文リスト
- ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文 参考訳(メタデータ) (2022-06-18T00:15:48Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Adaptive noise imitation for image denoising [58.21456707617451]
本研究では,自然雑音画像からノイズデータを合成できる新しいテキストバッファ適応ノイズ模倣(ADANI)アルゴリズムを開発した。
現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。
ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合すると、デノイングCNNは、完全に教師された方法で訓練される。
論文 参考訳(メタデータ) (2020-11-30T02:49:36Z) - Distribution Conditional Denoising: A Flexible Discriminative Image
Denoiser [0.0]
U-Netに基づくデゾナイズFCNにマルチタスク学習手法を適用するフレキシブルな識別画像デノイザを導入する。
この条件付き学習法は, 定音レベルU-Netデノイザを様々な雑音レベルに一般化することができる。
論文 参考訳(メタデータ) (2020-11-24T21:27:18Z) - Unpaired Learning of Deep Image Denoising [80.34135728841382]
本稿では,自己指導型学習と知識蒸留を取り入れた2段階の手法を提案する。
自己教師型学習では,実雑音の画像のみから視覚を学習するための拡張型盲点ネットワーク(D-BSN)を提案する。
実験の結果,本手法は合成ノイズ画像と実世界のノイズ画像の両方で良好に機能することがわかった。
論文 参考訳(メタデータ) (2020-08-31T16:22:40Z) - Dual Adversarial Network: Toward Real-world Noise Removal and Noise
Generation [52.75909685172843]
実世界の画像ノイズ除去は、コンピュータビジョンにおける長年の課題である。
本稿では,ノイズ除去およびノイズ発生タスクに対処する新しい統合フレームワークを提案する。
本手法はクリーンノイズ画像対の連成分布を学習する。
論文 参考訳(メタデータ) (2020-07-12T09:16:06Z) - Learning Model-Blind Temporal Denoisers without Ground Truths [46.778450578529814]
合成データで訓練されたデノイザーは、未知のノイズの多様性に対処できないことが多い。
従来の画像ベース手法は、ビデオデノイザに直接適用した場合、ノイズが過度に収まる。
本稿では,これらの課題に対処する上で有効な,ビデオ・デノベーション・ネットワークの汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-07T07:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。