論文の概要: Variance-Aware Loss Scheduling for Multimodal Alignment in Low-Data Settings
- arxiv url: http://arxiv.org/abs/2503.03202v1
- Date: Wed, 05 Mar 2025 05:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:16.881827
- Title: Variance-Aware Loss Scheduling for Multimodal Alignment in Low-Data Settings
- Title(参考訳): 低データ設定におけるマルチモーダルアライメントのための変数認識損失スケジューリング
- Authors: Sneh Pillai,
- Abstract要約: 画像テキストアライメントのための視覚言語モデルのトレーニングは通常、堅牢なパフォーマンスを達成するために大きなデータセットを必要とする。
本稿では,モデルのアライメント予測における統計的変動(不確実性)に基づいて,コントラスト損失の重み付けを動的に調整する分散型損失スケジューリング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Training vision-language models for image-text alignment typically requires large datasets to achieve robust performance. In low-data scenarios, standard contrastive learning can struggle to align modalities effectively due to overfitting and unstable training dynamics. In this paper, we propose a variance-aware loss scheduling approach that dynamically adjusts the weighting of the contrastive loss based on the statistical variability (uncertainty) in the model's alignment predictions. Using a subset of the Flickr8k image-caption dataset to simulate limited data conditions, we demonstrate that our approach improves image-text retrieval accuracy compared to a fixed-weight baseline. We also compare against other adaptive weighting strategies (using output entropy and cosine similarity spread) and find that variance-aware scheduling provides the best overall trade-off. Qualitatively, our method yields more distinct multimodal embeddings as shown by t-SNE visualizations. Moreover, in a stress test with noise-injected captions and images, the variance-guided loss proves more robust, maintaining higher recall when random perturbations are introduced. These results highlight the benefit of adaptive loss weighting for multimodal alignment in low-data regimes.
- Abstract(参考訳): 画像テキストアライメントのための視覚言語モデルのトレーニングは通常、堅牢なパフォーマンスを達成するために大きなデータセットを必要とする。
低データシナリオでは、標準のコントラスト学習は、過度な適合と不安定なトレーニングダイナミクスのために、モダリティを効果的に調整するのに苦労する可能性がある。
本稿では,モデルのアライメント予測における統計的変動(不確実性)に基づいて,コントラスト損失の重み付けを動的に調整する分散認識損失スケジューリング手法を提案する。
Flickr8k画像キャプチャデータセットのサブセットを用いて、限られたデータ条件をシミュレートし、固定重み付きベースラインに比べて画像テキストの精度が向上することを示した。
また、他の適応重み付け戦略(出力エントロピーとコサイン類似性スプレッド)と比較し、分散を考慮したスケジューリングが全体的なトレードオフとして最高のものであることを見出した。
定性的に,本手法はt-SNE視覚化で示されるように,より明確なマルチモーダル埋め込みをもたらす。
さらに、ノイズ注入キャプションと画像によるストレステストでは、ばらつき誘導損失はより堅牢であり、ランダムな摂動が導入された場合、高いリコールを維持する。
これらの結果は、低データ状態における多重モーダルアライメントに対する適応損失重み付けの利点を浮き彫りにした。
関連論文リスト
- Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - A Conformal Approach to Feature-based Newsvendor under Model Misspecification [2.801095519296785]
共形予測にインスパイアされたモデルフリーで分散フリーなフレームワークを提案する。
ワシントンD.C.のCapital Bikeshareプログラムのシミュレーションデータと実世界のデータセットを用いて,我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2024-12-17T18:34:43Z) - CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2024-07-03T17:34:55Z) - A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams [0.0]
本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。
提案手法は,初期ラベルのスパースセットを活用し,革新的なドリフト検出機構を導入する。
適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。
論文 参考訳(メタデータ) (2023-12-12T19:23:54Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Uncertainty-aware Generalized Adaptive CycleGAN [44.34422859532988]
unpaired image-to-image translationは、教師なしの方法で画像ドメイン間のマッピングを学ぶことを指す。
既存の手法はしばしば、外れ値への堅牢性や予測不確実性を明示的にモデル化せずに決定論的マッピングを学習する。
Uncertainty-aware Generalized Adaptive Cycle Consistency (UGAC) という新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2021-02-23T15:22:35Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。