論文の概要: $Δ\mathrm{Energy}$: Optimizing Energy Change During Vision-Language Alignment Improves both OOD Detection and OOD Generalization
- arxiv url: http://arxiv.org/abs/2510.11296v1
- Date: Mon, 13 Oct 2025 11:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.342508
- Title: $Δ\mathrm{Energy}$: Optimizing Energy Change During Vision-Language Alignment Improves both OOD Detection and OOD Generalization
- Title(参考訳): $Δ\mathrm{Energy}$:OOD検出とOOD一般化を改良した視覚言語アライメントにおけるエネルギー変化の最適化
- Authors: Lin Zhu, Yifeng Yang, Xinbing Wang, Qinying Gu, Nanyang Ye,
- Abstract要約: 我々はDeltaEnergyという新しいエネルギーベースのOODスコアを導入する。
DeltaEnergyはバニラエネルギーベースのOODスコアを大幅に上回り、OOD検出に対する信頼性の高いアプローチを提供する。
EBMは、OODの検出を増強するだけでなく、ドメインに一貫性のあるヘッセンを生成することが理論的に証明されている。
- 参考スコア(独自算出の注目度): 43.79061207312421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent approaches for vision-language models (VLMs) have shown remarkable success in achieving fast downstream adaptation. When applied to real-world downstream tasks, VLMs inevitably encounter both the in-distribution (ID) data and out-of-distribution (OOD) data. The OOD datasets often include both covariate shifts (e.g., known classes with changes in image styles) and semantic shifts (e.g., test-time unseen classes). This highlights the importance of improving VLMs' generalization ability to covariate-shifted OOD data, while effectively detecting open-set semantic-shifted OOD classes. In this paper, inspired by the substantial energy change observed in closed-set data when re-aligning vision-language modalities (specifically by directly reducing the maximum cosine similarity to a low value), we introduce a novel OOD score, named {\Delta}Energy. {\Delta}Energy significantly outperforms the vanilla energy-based OOD score and provides a more reliable approach for OOD detection. Furthermore, {\Delta}Energy can simultaneously improve OOD generalization under covariate shifts, which is achieved by lower-bound maximization for {\Delta}Energy (termed EBM). EBM is theoretically proven to not only enhance OOD detection but also yields a domain-consistent Hessian, which serves as a strong indicator for OOD generalization. Based on this finding, we developed a unified fine-tuning framework that allows for improving VLMs' robustness in both OOD generalization and OOD detection. Extensive experiments on challenging OOD detection and generalization benchmarks demonstrate the superiority of our method, outperforming recent approaches by 10% to 25% in AUROC.
- Abstract(参考訳): 視覚言語モデル(VLM)に対する最近のアプローチは、高速な下流適応の実現に顕著な成功を収めている。
現実世界の下流タスクに適用すると、VLMは必然的に、分散内(ID)データと分散外(OOD)データの両方に遭遇する。
OODデータセットには、共変量シフト(例:イメージスタイルの変更が知られている既知のクラス)とセマンティックシフト(例:テスト時間不明クラス)の両方が含まれていることが多い。
このことは、オープンセットのセマンティックシフトしたOODクラスを効果的に検出しながら、シフトしたOODデータを共変させるVLMの一般化能力を改善することの重要性を強調している。
本稿では,視覚言語モーダル性を再調整する際の閉集合データにおけるエネルギー変化(特に,コサイン類似度を低値に直接減少させること)に着想を得て,新しい OOD スコアである {\Delta}Energy を導入する。
デルタエネルギーはバニラエネルギーベースのOODスコアを著しく上回り、OOD検出に対するより信頼性の高いアプローチを提供する。
さらに、 {\Delta}Energy は共変量シフトの下で OOD の一般化を同時に改善することができ、これは {\Delta}Energy (termed EBM) の低バウンド最大化によって達成される。
EBMは、OODの検出を増強するだけでなく、OODの一般化の強力な指標であるドメイン一貫性ヘッセンをもたらすことが理論的に証明されている。
そこで本研究では,OODの一般化とOOD検出の両面において,VLMの堅牢性を向上させるための統一的な微調整フレームワークを開発した。
OOD検出と一般化ベンチマークの徹底的な実験により,AUROCにおける最近の手法の10%から25%を上回り,本手法の優位性を実証した。
関連論文リスト
- The Best of Both Worlds: On the Dilemma of Out-of-distribution Detection [75.65876949930258]
アウト・オブ・ディストリビューション(OOD)検出はモデル信頼性に不可欠である。
我々は,OODの一般化能力を秘かに犠牲にすることで,最先端手法のOOD検出性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:02:04Z) - Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection [42.33618249731874]
トレーニングデータにおけるエネルギースコアの最大化は、ドメイン一貫性のあるヘッセンの分類損失につながることを示す。
我々は,両タスクの同時最適化を可能にする統合された微調整フレームワークを開発した。
論文 参考訳(メタデータ) (2024-05-26T03:28:59Z) - How Does Fine-Tuning Impact Out-of-Distribution Detection for Vision-Language Models? [29.75562085178755]
数ショットダウンストリームタスクに対するOOD検出の微調整の影響について検討する。
以上の結果から,OODスコアの適切な選択はCLIPに基づく微調整に不可欠であることが示唆された。
また, 即時学習は, ゼロショットに比較して最先端のOOD検出性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-09T17:16:50Z) - Out-of-distribution Detection with Implicit Outlier Transformation [72.73711947366377]
外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力である。
我々は,未確認のOOD状況に対してモデルの性能を良くする,新しいOEベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-09T04:36:38Z) - Rethinking Out-of-distribution (OOD) Detection: Masked Image Modeling is
All You Need [52.88953913542445]
簡単な再構築手法を用いることで,OOD検出の性能が大幅に向上する可能性が示唆された。
我々は、OOD検出フレームワーク(MOOD)のプリテキストタスクとして、マスケ画像モデリング(Masked Image Modeling)を採用する。
論文 参考訳(メタデータ) (2023-02-06T08:24:41Z) - MOOD: Multi-level Out-of-distribution Detection [13.207044902083057]
異常な入力がデプロイ中にモデルが失敗するのを防ぐには、分散アウト・ディストリビューション(OOD)検出が不可欠です。
動的かつ効率的なOOD推論のための中間分類器出力を利用する,新しいフレームワークであるマルチレベルアウトオブディストリビューション検出MOODを提案する。
MOODは、競合するOOD検出性能を維持しながら、推論における最大71.05%の計算削減を実現します。
論文 参考訳(メタデータ) (2021-04-30T02:18:31Z) - ATOM: Robustifying Out-of-distribution Detection Using Outlier Mining [51.19164318924997]
インフォメーション・アウトリエ・マイニングによるアドリアトレーニングは、OOD検出の堅牢性を向上させる。
ATOMは,古典的,敵対的なOOD評価タスクの幅広いファミリーの下で,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-26T20:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。