論文の概要: Enhance Vision-Language Alignment with Noise
- arxiv url: http://arxiv.org/abs/2412.10817v1
- Date: Sat, 14 Dec 2024 12:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:54.872814
- Title: Enhance Vision-Language Alignment with Noise
- Title(参考訳): 騒音による視覚・言語アライメント
- Authors: Sida Huang, Hongyuan Zhang, Xuelong Li,
- Abstract要約: 本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
- 参考スコア(独自算出の注目度): 59.2608298578913
- License:
- Abstract: With the advancement of pre-trained vision-language (VL) models, enhancing the alignment between visual and linguistic modalities in downstream tasks has emerged as a critical challenge. Different from existing fine-tuning methods that add extra modules to these two modalities, we investigate whether the frozen model can be fine-tuned by customized noise. Our approach is motivated by the scientific study of beneficial noise, namely Positive-incentive Noise (Pi-noise or $\pi$-noise) , which quantitatively analyzes the impact of noise. It therefore implies a new scheme to learn beneficial noise distribution that can be employed to fine-tune VL models. Focusing on few-shot classification tasks based on CLIP, we reformulate the inference process of CLIP and apply variational inference, demonstrating how to generate $\pi$-noise towards visual and linguistic modalities. Then, we propose Positive-incentive Noise Injector (PiNI), which can fine-tune CLIP via injecting noise into both visual and text encoders. Since the proposed method can learn the distribution of beneficial noise, we can obtain more diverse embeddings of vision and language to better align these two modalities for specific downstream tasks within limited computational resources. We evaluate different noise incorporation approaches and network architectures of PiNI. The evaluation across 11 datasets demonstrates its effectiveness.
- Abstract(参考訳): 事前学習型視覚言語(VL)モデルの進歩に伴い、下流タスクにおける視覚的モダリティと言語的モダリティの整合性を高めることが重要な課題となっている。
これら2つのモードに余分なモジュールを追加する既存の微調整方法とは異なり、凍結したモデルがカスタマイズされたノイズで微調整できるかどうかを考察する。
提案手法は, 雑音の影響を定量的に解析する有益雑音(Pi-noiseまたは$\pi$-noise)の科学的研究に動機付けられている。
したがって、VLモデルの微調整に使用できる有益な雑音分布を学習するための新しいスキームが提案されている。
CLIPに基づく数ショットの分類タスクに着目して、CLIPの推論プロセスを再構築し、変分推論を適用し、視覚的および言語的モダリティに対して$\pi$-noiseを生成する方法を示す。
次に、視覚とテキストのエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズインジェクタ(PiNI)を提案する。
提案手法は有益雑音の分布を学習できるため,より多様な視覚と言語を組み込むことで,限られた計算資源内での特定の下流タスクに対して,これらの2つのモードをよりよく整合させることができる。
我々は、PiNIの異なるノイズインクルージョン手法とネットワークアーキテクチャを評価する。
11のデータセットに対する評価は、その有効性を示している。
関連論文リスト
- Data Augmentation of Contrastive Learning is Estimating Positive-incentive Noise [54.24688963649581]
コントラスト学習と$pi$-noiseの関係を科学的に検討する。
タスクに有益なノイズを学習することを目的としたポジティブ・インセンティブノイズ(Pi-Noise または $pi$-Noise )のアイデアに触発されて,我々は $pi$-noise ジェネレータを開発した。
論文 参考訳(メタデータ) (2024-08-19T12:07:42Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - NoisyNN: Exploring the Impact of Information Entropy Change in Learning Systems [20.2575859510473]
本研究では,特定の条件下での各種深部モデルの性能向上効果を示す。
ノイズがタスクの複雑さを軽減するのに役立つかどうかに基づいて、ノイズを正ノイズ(PN)と有害ノイズ(HN)の2つのタイプに分類する。
論文 参考訳(メタデータ) (2023-09-19T14:04:04Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Robust Time Series Denoising with Learnable Wavelet Packet Transform [1.370633147306388]
多くのアプリケーションでは、後の分析や学習タスクの前に、信号の復号化が最初の前処理ステップであることが多い。
本稿では,ウェーブレットパケット変換の学習可能なバージョンである信号処理にインスパイアされたディープ・ラーニング・デノイング・モデルを適用することを提案する。
本稿では,提案アルゴリズムが信号処理手法の普遍性とディープラーニング手法の学習能力にどのように関係しているかを示す。
論文 参考訳(メタデータ) (2022-06-13T13:05:58Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - CDLNet: Noise-Adaptive Convolutional Dictionary Learning Network for
Blind Denoising and Demosaicing [4.975707665155918]
アンロール最適化ネットワークは、ディープニューラルネットワークを構築するための解釈可能な代替手段を提供する。
本稿では,非学習型畳み込み辞書学習ネットワーク(CDLNet)を提案する。
具体的には,提案モデルが類似パラメータ数にスケールした場合に,完全畳み込みモデルやJDDモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-02T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。