論文の概要: FANoise: Singular Value-Adaptive Noise Modulation for Robust Multimodal Representation Learning
- arxiv url: http://arxiv.org/abs/2511.20997v1
- Date: Wed, 26 Nov 2025 02:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.934904
- Title: FANoise: Singular Value-Adaptive Noise Modulation for Robust Multimodal Representation Learning
- Title(参考訳): FANoise:ロバストなマルチモーダル表現学習のための特異値適応雑音変調
- Authors: Jiaoyang Li, Jun Fang, Tianhao Gao, Xiaohui Zhang, Zhiyuan Liu, Chao Liu, Pengzhang Liu, Qixia Jiang,
- Abstract要約: 本研究では,表現学習における雑音勾配の役割について検討した。
本稿では,新しい特徴適応型ノイズ注入方式であるFANoiseを提案する。
このフレームワークでは、FANoiseがマルチモーダルタスクの全体的なパフォーマンスを継続的に改善することを示した。
- 参考スコア(独自算出の注目度): 24.94576263410761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning is fundamental to modern machine learning, powering applications such as text retrieval and multimodal understanding. However, learning robust and generalizable representations remains challenging. While prior work has demonstrated that active noise injection, a form of data augmentation, can enhance encoding performance, most existing methods rely on heuristic or static noise, overlooking the dynamic nature of feature distributions during training. In this work, we systematically study the role of noise in representation learning from both gradient-based and feature distribution perspectives, using InfoNCE loss as a representative example. Focusing on multimodal representation learning, we propose FANoise, a novel feature-adaptive noise injection strategy. By leveraging the dynamics of contrastive learning, FANoise effectively mitigates the negative impacts of noise while preserving its benefits. Under this theoretically grounded framework, comprehensive experiments demonstrate that FANoise consistently improves overall performance on multimodal tasks across various base VLM models.
- Abstract(参考訳): 表現学習は現代の機械学習の基本であり、テキスト検索やマルチモーダル理解といった応用に力を入れている。
しかし、堅牢で一般化可能な表現の学習は依然として困難である。
従来の研究は、データ拡張の一形態であるアクティブノイズ注入が符号化性能を向上させることを示したが、既存の手法のほとんどはヒューリスティックノイズや静的ノイズに依存しており、トレーニング中の特徴分布の動的性質を見越している。
本研究では,インフォネッセ損失を代表例として,勾配ベースと特徴分布の観点からの表現学習におけるノイズの役割を体系的に研究する。
マルチモーダル表現学習に着目し,新しい特徴適応型ノイズ注入手法であるFANoiseを提案する。
対照的な学習のダイナミクスを活用することで、FANoiseはその利点を保ちながら、ノイズの負の影響を効果的に軽減する。
この理論に基づく枠組みの下で、FANoiseは様々な基本VLMモデルにおけるマルチモーダルタスクの全体的な性能を一貫して改善することを示した。
関連論文リスト
- Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Robust Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning [24.671771440617288]
本稿では,身体的視覚的コモンセンス推論のためのロバスト・ディスタングル・カウンタフル・ラーニング(RDCL)手法を提案する。
主な課題は、欠落したモダリティのシナリオの下でも、人間の推論能力を模倣する方法である。
提案手法は,VLMを含む任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
論文 参考訳(メタデータ) (2025-02-18T01:49:45Z) - Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Policy Gradient-Driven Noise Mask [3.69758875412828]
本稿では,マルチモーダル・マルチオーガナイズドデータセットの性能向上に適した条件付きノイズマスクの生成を学習する,新しい事前学習パイプラインを提案する。
重要な側面は、ポリシーネットワークの役割が微調整の前に中間的な(または加熱された)モデルを取得することに限定されていることである。
その結果、中間モデルの微調整は、分類と一般化の両方の従来の訓練アルゴリズムよりも、目に見えない概念タスクに優れていた。
論文 参考訳(メタデータ) (2024-04-29T23:53:42Z) - NoisyNN: Exploring the Impact of Information Entropy Change in Learning Systems [15.068228411480957]
本研究では,特定の条件下での各種深部モデルの性能向上効果を示す。
ノイズがタスクの複雑さを軽減するのに役立つかどうかに基づいて、ノイズを正ノイズ(PN)と有害ノイズ(HN)の2つのタイプに分類する。
論文 参考訳(メタデータ) (2023-09-19T14:04:04Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。