論文の概要: NLIP: Noise-robust Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2212.07086v1
- Date: Wed, 14 Dec 2022 08:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 15:02:29.159351
- Title: NLIP: Noise-robust Language-Image Pre-training
- Title(参考訳): NLIP:ノイズローバスト言語-画像事前学習
- Authors: Runhui Huang, Yanxin Long, Jianhua Han, Hang Xu, Xiwen Liang, Chunjing
Xu, Xiaodan Liang
- Abstract要約: 雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
- 参考スコア(独自算出の注目度): 95.13287735264937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale cross-modal pre-training paradigms have recently shown ubiquitous
success on a wide range of downstream tasks, e.g., zero-shot classification,
retrieval and image captioning. However, their successes highly rely on the
scale and quality of web-crawled data that naturally contain incomplete and
noisy information (e.g., wrong or irrelevant content). Existing works either
design manual rules to clean data or generate pseudo-targets as auxiliary
signals for reducing noise impact, which do not explicitly tackle both the
incorrect and incomplete challenges simultaneously. In this paper, to
automatically mitigate the impact of noise by solely mining over existing data,
we propose a principled Noise-robust Language-Image Pre-training framework
(NLIP) to stabilize pre-training via two schemes: noise-harmonization and
noise-completion. First, in noise-harmonization scheme, NLIP estimates the
noise probability of each pair according to the memorization effect of
cross-modal transformers, then adopts noise-adaptive regularization to
harmonize the cross-modal alignments with varying degrees. Second, in
noise-completion scheme, to enrich the missing object information of text, NLIP
injects a concept-conditioned cross-modal decoder to obtain semantic-consistent
synthetic captions to complete noisy ones, which uses the retrieved visual
concepts (i.e., objects' names) for the corresponding image to guide captioning
generation. By collaboratively optimizing noise-harmonization and
noise-completion schemes, our NLIP can alleviate the common noise effects
during image-text pre-training in a more efficient way. Extensive experiments
show the significant performance improvements of our NLIP using only 26M data
over existing pre-trained models (e.g., CLIP, FILIP and BLIP) on 12 zero-shot
classification datasets, MSCOCO image captioning and zero-shot image-text
retrieval tasks.
- Abstract(参考訳): 大規模なクロスモーダル事前学習パラダイムは、最近、ゼロショット分類、検索、画像キャプションなど、幅広い下流タスクでユビキタスに成功している。
しかし、その成功は、不完全で騒がしい情報(例えば、間違ったコンテンツや無関係なコンテンツ)を自然に含むウェブクローラーデータの規模と品質に大きく依存している。
既存の作業では、データをきれいにするために手動のルールを設計するか、ノイズの影響を減らす補助信号として擬似ターゲットを生成するかのどちらかだ。
本稿では,既存のデータのみをマイニングすることで,ノイズの影響を自動的に軽減するため,ノイズ調和とノイズ補完という2つの手法を用いて,事前学習を安定化する基本手法であるNLIPを提案する。
まず、ノイズハーモニゼーションスキームにおいて、nlipはクロスモーダルトランスフォーマーの記憶効果に従って各ペアのノイズ確率を推定し、次にノイズ適応正規化を採用してクロスモーダルアライメントを異なる次数で調和させる。
第二に、ノイズコンプリートスキームにおいて、nlipは、テキストの欠落しているオブジェクト情報を豊かにするために、概念条件のクロスモーダルデコーダを注入して、検索された視覚概念(すなわち、オブジェクトの名前)を使用してキャプション生成をガイドする。
ノイズハーモナイゼーションとノイズコンプリートスキームを協調的に最適化することで,画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
12のゼロショット分類データセット、MSCOCO画像キャプション、ゼロショット画像テキスト検索タスクにおいて、既存のトレーニング済みモデル(例えば、CLIP、FILIP、BLIP)に対して26万データしか使用せず、NLIPの大幅なパフォーマンス向上が示されている。
関連論文リスト
- Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - Learning to Translate Noise for Robust Image Denoising [38.61470097987608]
ディープ・ラーニング・テクニックは、現実世界のノイズに分布しないような一般化性能に苦しむことが多い。
そこで,本研究では,元の雑音画像を直接デノナイズするのではなく,変換された雑音で画像をデノナイズする新しいノイズ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-06T02:35:44Z) - Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation [25.410770364140856]
クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により、しばしば深刻な課題に直面している。
本研究では,ノイズ抽出技術とGANを利用した新しいデータシミュレーション手法を提案する。
本研究では,動的摂動の概念を導入し,制御された摂動を推論中の雑音埋め込みに注入する。
論文 参考訳(メタデータ) (2024-09-03T02:29:01Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文 参考訳(メタデータ) (2022-06-18T00:15:48Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Adaptive noise imitation for image denoising [58.21456707617451]
本研究では,自然雑音画像からノイズデータを合成できる新しいテキストバッファ適応ノイズ模倣(ADANI)アルゴリズムを開発した。
現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。
ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合すると、デノイングCNNは、完全に教師された方法で訓練される。
論文 参考訳(メタデータ) (2020-11-30T02:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。