論文の概要: Modest-Align: Data-Efficient Alignment for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.21606v1
- Date: Fri, 24 Oct 2025 16:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.539839
- Title: Modest-Align: Data-Efficient Alignment for Vision-Language Models
- Title(参考訳): モデストアライメント:視覚言語モデルのためのデータ効率の良いアライメント
- Authors: Jiaxiang Liu, Yuan Wang, Jiawei Du, Joey Tianyi Zhou, Mingkun Xu, Zuozhu Liu,
- Abstract要約: クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。
我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 67.48633659305592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal alignment aims to map heterogeneous modalities into a shared latent space, as exemplified by models like CLIP, which benefit from large-scale image-text pretraining for strong recognition capabilities. However, when operating in resource-constrained settings with limited or low-quality data, these models often suffer from overconfidence and degraded performance due to the prevalence of ambiguous or weakly correlated image-text pairs. Current contrastive learning approaches, which rely on single positive pairs, further exacerbate this issue by reinforcing overconfidence on uncertain samples. To address these challenges, we propose Modest-Align, a lightweight alignment framework designed for robustness and efficiency. Our approach leverages two complementary strategies -- Random Perturbation, which introduces controlled noise to simulate uncertainty, and Embedding Smoothing, which calibrates similarity distributions in the embedding space. These mechanisms collectively reduce overconfidence and improve performance on noisy or weakly aligned samples. Extensive experiments across multiple benchmark datasets demonstrate that Modest-Align outperforms state-of-the-art methods in retrieval tasks, achieving competitive results with over 100x less training data and 600x less GPU time than CLIP. Our method offers a practical and scalable solution for cross-modal alignment in real-world, low-resource scenarios.
- Abstract(参考訳): クロスモーダルアライメントは、CLIPのようなモデルが示すように、不均一なモダリティを共有潜在空間にマッピングすることを目的としている。
しかし、限られたデータや低品質のデータで資源制約のある設定で操作する場合、不明瞭または弱い相関のイメージテキストペアの出現により、これらのモデルは過信と劣化した性能に悩まされることが多い。
単一の正のペアに依存する現在の対照的な学習アプローチは、不確実なサンプルに対する過信を強化することによって、この問題をさらに悪化させる。
これらの課題に対処するために、ロバスト性と効率性のために設計された軽量アライメントフレームワークであるModest-Alignを提案する。
提案手法は,不確実性をシミュレートする制御ノイズを導入したランダム摂動と,埋め込み空間における類似性分布を校正する埋め込み平滑化という2つの相補的戦略を利用する。
これらのメカニズムは、総合的に過信を減らし、ノイズや弱い整列したサンプルの性能を向上させる。
複数のベンチマークデータセットにわたる大規模な実験によると、Modest-Alignは検索タスクにおける最先端のメソッドよりも優れており、100倍以上のトレーニングデータと600倍のGPU時間で競合する結果が得られる。
本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
関連論文リスト
- Dual-granularity Sinkhorn Distillation for Enhanced Learning from Long-tailed Noisy Data [67.25796812343454]
ディープラーニングのための実世界のデータセットは、クラス不均衡とラベルノイズの共起的な課題にしばしば悩まされる。
蒸留と相補的な知見の統合により二重強靭性を高める新しいフレームワークであるD-SINKを提案する。
ベンチマークデータセットの実験では、D-SINKはロバスト性を大幅に向上し、長い尾のノイズデータから学習する際の強い経験的性能を達成することが示された。
論文 参考訳(メタデータ) (2025-10-09T13:05:27Z) - MIDAS: Misalignment-based Data Augmentation Strategy for Imbalanced Multimodal Learning [14.06705718861471]
マルチモーダルモデルは、しばしば支配的なモダリティに過度に頼り、最適な性能を達成できなかった。
提案するMIDASは,意味的に整合性のないクロスモーダル情報を用いて,ミスアライメントされたサンプルを生成する新しいデータ拡張戦略である。
複数のマルチモーダル分類ベンチマークの実験により、MIDASはモダリティの不均衡に対処する上で、関連するベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-30T06:13:17Z) - Confidence-Aware Self-Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [15.205192581534973]
マルチモーダル感情分析は、マルチモーダルデータを通して人間の感情を理解することを目的としている。
既存のモダリティの欠如を扱う方法は、データ再構成や共通部分空間投影に基づいている。
マルチモーダルな確率的埋め込みを効果的に組み込んだ信頼性認識型自己蒸留(CASD)戦略を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:48:41Z) - GMM-Based Comprehensive Feature Extraction and Relative Distance Preservation For Few-Shot Cross-Modal Retrieval [13.928213494843744]
クロスモーダル検索は、限られたトレーニングサンプルを用いたクロスモーダル表現の学習に焦点を当てている。
既存の手法では、数発のクロスモーダルデータのマルチピーク分布を適切にモデル化できない場合が多い。
画像特徴量とテキスト特徴量との相対的距離を制約するクロスモーダルなセマンティックアライメントのための新しい戦略を導入する。
論文 参考訳(メタデータ) (2025-05-19T16:25:55Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Modeling Multimodal Aleatoric Uncertainty in Segmentation with Mixture
of Stochastic Expert [24.216869988183092]
入力画像にあいまいさが存在する場合、セグメンテーションにおけるデータ独立不確実性(いわゆるアレタリック不確実性)を捉えることに重点を置いている。
本稿では,各専門家ネットワークがアレータティック不確実性の異なるモードを推定する,新しい専門家モデル(MoSE)を提案する。
We developed a Wasserstein-like loss that makes direct minimizes the distribution distance between the MoSE and ground truth annotations。
論文 参考訳(メタデータ) (2022-12-14T16:48:21Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。