Fugu-MT 論文翻訳(概要): NLIP: Noise-robust Language-Image Pre-training

論文の概要: NLIP: Noise-robust Language-Image Pre-training

arxiv url: http://arxiv.org/abs/2212.07086v1
Date: Wed, 14 Dec 2022 08:19:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-15 15:02:29.159351
Title: NLIP: Noise-robust Language-Image Pre-training
Title（参考訳）: NLIP:ノイズローバスト言語-画像事前学習
Authors: Runhui Huang, Yanxin Long, Jianhua Han, Hang Xu, Xiwen Liang, Chunjing Xu, Xiaodan Liang
Abstract要約: 雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
参考スコア（独自算出の注目度）: 95.13287735264937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale cross-modal pre-training paradigms have recently shown ubiquitous success on a wide range of downstream tasks, e.g., zero-shot classification, retrieval and image captioning. However, their successes highly rely on the scale and quality of web-crawled data that naturally contain incomplete and noisy information (e.g., wrong or irrelevant content). Existing works either design manual rules to clean data or generate pseudo-targets as auxiliary signals for reducing noise impact, which do not explicitly tackle both the incorrect and incomplete challenges simultaneously. In this paper, to automatically mitigate the impact of noise by solely mining over existing data, we propose a principled Noise-robust Language-Image Pre-training framework (NLIP) to stabilize pre-training via two schemes: noise-harmonization and noise-completion. First, in noise-harmonization scheme, NLIP estimates the noise probability of each pair according to the memorization effect of cross-modal transformers, then adopts noise-adaptive regularization to harmonize the cross-modal alignments with varying degrees. Second, in noise-completion scheme, to enrich the missing object information of text, NLIP injects a concept-conditioned cross-modal decoder to obtain semantic-consistent synthetic captions to complete noisy ones, which uses the retrieved visual concepts (i.e., objects' names) for the corresponding image to guide captioning generation. By collaboratively optimizing noise-harmonization and noise-completion schemes, our NLIP can alleviate the common noise effects during image-text pre-training in a more efficient way. Extensive experiments show the significant performance improvements of our NLIP using only 26M data over existing pre-trained models (e.g., CLIP, FILIP and BLIP) on 12 zero-shot classification datasets, MSCOCO image captioning and zero-shot image-text retrieval tasks.
Abstract（参考訳）: 大規模なクロスモーダル事前学習パラダイムは、最近、ゼロショット分類、検索、画像キャプションなど、幅広い下流タスクでユビキタスに成功している。しかし、その成功は、不完全で騒がしい情報(例えば、間違ったコンテンツや無関係なコンテンツ)を自然に含むウェブクローラーデータの規模と品質に大きく依存している。既存の作業では、データをきれいにするために手動のルールを設計するか、ノイズの影響を減らす補助信号として擬似ターゲットを生成するかのどちらかだ。本稿では,既存のデータのみをマイニングすることで,ノイズの影響を自動的に軽減するため,ノイズ調和とノイズ補完という2つの手法を用いて,事前学習を安定化する基本手法であるNLIPを提案する。まず、ノイズハーモニゼーションスキームにおいて、nlipはクロスモーダルトランスフォーマーの記憶効果に従って各ペアのノイズ確率を推定し、次にノイズ適応正規化を採用してクロスモーダルアライメントを異なる次数で調和させる。第二に、ノイズコンプリートスキームにおいて、nlipは、テキストの欠落しているオブジェクト情報を豊かにするために、概念条件のクロスモーダルデコーダを注入して、検索された視覚概念(すなわち、オブジェクトの名前)を使用してキャプション生成をガイドする。ノイズハーモナイゼーションとノイズコンプリートスキームを協調的に最適化することで,画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。 12のゼロショット分類データセット、MSCOCO画像キャプション、ゼロショット画像テキスト検索タスクにおいて、既存のトレーニング済みモデル(例えば、CLIP、FILIP、BLIP)に対して26万データしか使用せず、NLIPの大幅なパフォーマンス向上が示されている。

関連論文リスト

Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文参考訳（メタデータ） (2024-12-14T12:58:15Z)
Learning to Translate Noise for Robust Image Denoising [38.61470097987608]
ディープ・ラーニング・テクニックは、現実世界のノイズに分布しないような一般化性能に苦しむことが多い。そこで,本研究では,元の雑音画像を直接デノナイズするのではなく,変換された雑音で画像をデノナイズする新しいノイズ翻訳フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-06T02:35:44Z)
Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation [25.410770364140856]
クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により、しばしば深刻な課題に直面している。本研究では,ノイズ抽出技術とGANを利用した新しいデータシミュレーション手法を提案する。本研究では,動的摂動の概念を導入し,制御された摂動を推論中の雑音埋め込みに注入する。
論文参考訳（メタデータ） (2024-09-03T02:29:01Z)
ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。 Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文参考訳（メタデータ） (2023-08-16T15:19:52Z)
Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文参考訳（メタデータ） (2023-05-17T13:56:48Z)
NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。 NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文参考訳（メタデータ） (2022-06-18T00:15:48Z)
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文参考訳（メタデータ） (2021-10-28T20:39:02Z)
Adaptive noise imitation for image denoising [58.21456707617451]
本研究では,自然雑音画像からノイズデータを合成できる新しいテキストバッファ適応ノイズ模倣(ADANI)アルゴリズムを開発した。現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。 ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合すると、デノイングCNNは、完全に教師された方法で訓練される。
論文参考訳（メタデータ） (2020-11-30T02:49:36Z)
Distribution Conditional Denoising: A Flexible Discriminative Image Denoiser [0.0]
U-Netに基づくデゾナイズFCNにマルチタスク学習手法を適用するフレキシブルな識別画像デノイザを導入する。この条件付き学習法は, 定音レベルU-Netデノイザを様々な雑音レベルに一般化することができる。
論文参考訳（メタデータ） (2020-11-24T21:27:18Z)
Unpaired Learning of Deep Image Denoising [80.34135728841382]
本稿では,自己指導型学習と知識蒸留を取り入れた2段階の手法を提案する。自己教師型学習では,実雑音の画像のみから視覚を学習するための拡張型盲点ネットワーク(D-BSN)を提案する。実験の結果,本手法は合成ノイズ画像と実世界のノイズ画像の両方で良好に機能することがわかった。
論文参考訳（メタデータ） (2020-08-31T16:22:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。