論文の概要: Bayesian Cross-Modal Alignment Learning for Few-Shot Out-of-Distribution Generalization
- arxiv url: http://arxiv.org/abs/2504.09448v2
- Date: Tue, 22 Apr 2025 10:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 12:28:02.936617
- Title: Bayesian Cross-Modal Alignment Learning for Few-Shot Out-of-Distribution Generalization
- Title(参考訳): 分布外一般化のためのベイズ的クロスモーダルアライメント学習
- Authors: Lin Zhu, Xinbing Wang, Chenghu Zhou, Nanyang Ye,
- Abstract要約: 本稿では,この問題に対処するために,新しいクロスモーダルな画像テキストアライメント学習手法(Bayes-CAL)を提案する。
Bayes-CALは2次元分布シフトにおける最先端のOoD一般化性能を達成する。
CLIPのようなモデルと比較して、Bayes-CALは目に見えないクラスでより安定した一般化性能を得る。
- 参考スコア(独自算出の注目度): 47.64583975469164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large pre-trained models showed promising results in few-shot learning. However, their generalization ability on two-dimensional Out-of-Distribution (OoD) data, i.e., correlation shift and diversity shift, has not been thoroughly investigated. Researches have shown that even with a significant amount of training data, few methods can achieve better performance than the standard empirical risk minimization method (ERM) in OoD generalization. This few-shot OoD generalization dilemma emerges as a challenging direction in deep neural network generalization research, where the performance suffers from overfitting on few-shot examples and OoD generalization errors. In this paper, leveraging a broader supervision source, we explore a novel Bayesian cross-modal image-text alignment learning method (Bayes-CAL) to address this issue. Specifically, the model is designed as only text representations are fine-tuned via a Bayesian modelling approach with gradient orthogonalization loss and invariant risk minimization (IRM) loss. The Bayesian approach is essentially introduced to avoid overfitting the base classes observed during training and improve generalization to broader unseen classes. The dedicated loss is introduced to achieve better image-text alignment by disentangling the causal and non-casual parts of image features. Numerical experiments demonstrate that Bayes-CAL achieved state-of-the-art OoD generalization performances on two-dimensional distribution shifts. Moreover, compared with CLIP-like models, Bayes-CAL yields more stable generalization performances on unseen classes. Our code is available at https://github.com/LinLLLL/BayesCAL.
- Abstract(参考訳): 大規模プレトレーニングモデルの最近の進歩は、数発の学習で有望な結果を示した。
しかし,2次元アウト・オブ・ディストリビューション(OoD)データ,すなわち相関シフトと多様性シフトに対する一般化能力は十分には研究されていない。
OoD 一般化における標準的な経験的リスク最小化法 (ERM) よりも優れた性能を達成する方法はほとんどない。
この数ショットのOoD一般化ジレンマは、深層ニューラルネットワーク一般化研究における挑戦的な方向として現れ、パフォーマンスは、少数ショットの例とOoD一般化エラーに過度に適合する。
本稿では,より広範な監督源を活用することで,ベイズ横断画像テキストアライメント学習法(Bayes-CAL)を探索し,この問題に対処する。
具体的には、勾配直交化損失と不変リスク最小化(IRM)損失を伴うベイズ的モデリング手法を用いて、テキスト表現のみを微調整するように設計されている。
ベイズ的アプローチは本質的には、訓練中に観察された基底クラスに過度に適合することを避け、より広い未確認クラスへの一般化を改善するために導入される。
画像特徴の因果的部分と非因果的部分を切り離すことにより、より優れた画像テキストアライメントを実現するために、専用損失を導入する。
数値実験により、ベイズCALは2次元分布シフトにおける最先端のOoD一般化性能を達成した。
さらに、CLIPのようなモデルと比較すると、ベイズCALは目に見えないクラス上でより安定した一般化性能が得られる。
私たちのコードはhttps://github.com/LinLLLL/BayesCAL.orgから入手可能です。
関連論文リスト
- On Generalization Across Environments In Multi-Objective Reinforcement Learning [6.686583184622338]
我々は,多目的強化学習(MORL)における一般化の概念を定式化し,その評価方法について述べる。
パラメータ化された環境構成を持つ多目的ドメインを特徴とする新しいベンチマークを提案。
このベンチマークにおける最先端のMORLアルゴリズムのベースライン評価は、限定的な一般化能力を示し、改善の余地があることを示唆している。
論文 参考訳(メタデータ) (2025-03-02T08:50:14Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - Feed Two Birds with One Scone: Exploiting Wild Data for Both
Out-of-Distribution Generalization and Detection [31.68755583314898]
そこで本稿では,未ラベルのデータを野生で自由に利用できるように活用する,マージンベースの学習フレームワークを提案する。
我々は,提案した限界制約がOOD一般化と検出の両方を達成する鍵であることを実証的および理論的に示す。
論文 参考訳(メタデータ) (2023-06-15T14:32:35Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Adaptive Fine-Grained Sketch-Based Image Retrieval [100.90633284767205]
最近のファイングレード・スケッチに基づく画像検索は、モデルから新しいカテゴリへの一般化へとシフトしている。
実世界のアプリケーションでは、トレーニングされたFG-SBIRモデルは、新しいカテゴリと異なる人間のスケッチラーの両方に適用されることが多い。
モデルに依存しないメタラーニング(MAML)に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-04T21:07:20Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Towards Calibrated Model for Long-Tailed Visual Recognition from Prior
Perspective [17.733087434470907]
実世界のデータは、深刻な階級不均衡問題に直面し、長い尾の分布を示す。
本稿では,このジレンマを緩和する2つの新しい手法を提案する。
まず、UniMix(UniMix)と呼ばれるバランス指向データ拡張を推定し、長期のシナリオでミキサアップを促進する。
第二に、ベイズ理論に動機づけられたベイズバイアス(ベイアズ)は、標準的なクロスエントロピー損失の修正としてそれを補償する。
論文 参考訳(メタデータ) (2021-11-06T12:53:34Z) - Ortho-Shot: Low Displacement Rank Regularization with Data Augmentation
for Few-Shot Learning [23.465747123791772]
少数の分類において、第一の目的は、新しいクラスをうまく一般化する表現を学ぶことである。
オルソショット(Ortho-Shot)と呼ばれる効率的な低変位ランク(LDR)正規化戦略を提案する。
論文 参考訳(メタデータ) (2021-10-18T14:58:36Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Double Descent and Other Interpolation Phenomena in GANs [2.7007335372861974]
生成逆数ネットワーク(GAN)における潜在空間次元の関数としての一般化誤差について検討する。
そこで我々は,実出力サンプルと組み合わせて,一対の合成(雑音)入力を利用するGANのための新しい擬似教師付き学習手法を開発した。
解析は主に線形モデルに焦点をあてるが、非線形多層GANの一般化に重要な洞察を与える。
論文 参考訳(メタデータ) (2021-06-07T23:07:57Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。