論文の概要: T-QPM: Enabling Temporal Out-Of-Distribution Detection and Domain Generalization for Vision-Language Models in Open-World
- arxiv url: http://arxiv.org/abs/2603.18481v1
- Date: Thu, 19 Mar 2026 04:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.956277
- Title: T-QPM: Enabling Temporal Out-Of-Distribution Detection and Domain Generalization for Vision-Language Models in Open-World
- Title(参考訳): T-QPM:オープンワールドにおける視覚言語モデルの時間外分布検出と領域一般化の実現
- Authors: Aditi Naiknaware, Salimeh Sekeh,
- Abstract要約: アウト・オブ・ディストリビューション(OOD)検出は、オープンワールド学習において依然として重要な課題である。
動的環境下でのOOD検出を強化するための新しい2段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out-of-distribution (OOD) detection remains a critical challenge in open-world learning, where models must adapt to evolving data distributions. While recent vision-language models (VLMS) like CLIP enable multimodal OOD detection through Dual-Pattern Matching (DPM), existing methods typically suffer from two major shortcomings: (1) They rely on fixed fusion rules and assume static environments, failing under temporal drift; and (2) they lack robustness against covariate shifted inputs. In this paper, we propose a novel two-step framework to enhance OOD detection and covariate distribution shift robustness in dynamic settings. We extend the dual-pattern regime into Temporal Quadruple-Pattern Matching (T-QPM). First, by pairing OOD images with text descriptions, we introduce cross-modal consistency patterns between ID and OOD signals, refining the decision boundary through joint image-text reasoning. Second, we address temporal distribution shifts by learning lightweight fusion weights to optimally combine semantic matching and visual typicality. To ensure stability, we enforce explicit regularization based on Average Thresholded Confidence (ATC), preventing performance degradation as distributions evolve. Experiments on temporally partitioned benchmarks demonstrate that our approach significantly outperforms static baselines, offering a robust, temporally-consistent framework for multimodal OOD detection in non-stationary environments.
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)検出は、モデルが進化するデータ分布に適応しなければならないオープンワールド学習において、依然として重要な課題である。
最近のCLIPのような視覚言語モデル(VLMS)は、デュアルパタンマッチング(DPM)によるマルチモーダルOOD検出を可能にするが、既存の手法では、(1)固定された融合規則に依存し、静的環境を仮定し、時間的ドリフトで失敗する、(2)共変量シフト入力に対する堅牢性に欠ける、という2つの大きな欠点がある。
本稿では,動的環境下でのOOD検出と共変量分布シフトロバスト性を向上させるための2段階フレームワークを提案する。
両パターン構造をT-QPM(T-QPM)に拡張する。
まず,OOD画像をテキスト記述と組み合わせることで,ID信号とOOD信号の相互整合パターンを導入し,共同画像テキスト推論による決定境界の精査を行う。
第2に,重みを学習することで時間分布の変化に対処し,セマンティックマッチングと視覚的典型性を最適に組み合わせる。
安定性を確保するため,平均閾値信頼度(ATC)に基づく明示的な正規化を実施し,分散の進展に伴う性能劣化を防止する。
時間分割ベンチマーク実験により, 定常環境下でのOOD検出のための頑健かつ時間的に一貫性のあるフレームワークを提供することにより, 静的ベースラインを著しく上回ることを示す。
関連論文リスト
- Dual-Prototype Disentanglement: A Context-Aware Enhancement Framework for Time Series Forecasting [5.764294765094398]
本稿では,予測モデルにパターンの絡み合いとコンテキスト認識適応の能力を持たせるモデル非依存補助手法を提案する。
具体的には、動的デュアルタイプバンク(DDP)を構築し、高頻度傾向や季節パターンを捉えるために、強い時間的先行時間を持つ共通のパターンバンクを構成する。
また,DGLoss(Disentanglement-Guided Loss)を導入し,各プロトタイプバンクが,包括的カバレッジを維持しつつ,指定された役割を担っていることを確認した。
論文 参考訳(メタデータ) (2026-01-23T10:33:34Z) - Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models [59.242742594156546]
CoEvoは、テキストプロキシとビジュアルプロキシの両方を双方向でサンプル条件で適応するテストタイムフレームワークである。
CoEvoは最先端のパフォーマンスを実現し、AUROCを1.33%改善し、ImageNet-1KではFPR95を45.98%削減した。
論文 参考訳(メタデータ) (2026-01-13T12:08:26Z) - Morphing Through Time: Diffusion-Based Bridging of Temporal Gaps for Robust Alignment in Change Detection [51.56484100374058]
既存の変更検出ネットワークを変更することなく空間的・時間的ロバスト性を改善するモジュールパイプラインを導入する。
拡散モジュールは、大きな外観ギャップをブリッジする中間変形フレームを合成し、RoMaは段階的に対応を推定できる。
LEVIR-CD、WHU-CD、DSIFN-CDの実験は、登録精度と下流変化検出の両方において一貫した利得を示した。
論文 参考訳(メタデータ) (2025-11-11T08:40:28Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Diffeomorphic Temporal Alignment Nets for Time-series Joint Alignment and Averaging [8.14908648005543]
時系列分析では、非線形時間的不整合は、森林労働者がより単純な平均化を行うための重要な課題である。
DTANは入力依存の方法で微分同相変換を予測し、適用することにより、時系列アンサンブルのジョイントアライメント(JA)と平均化を容易にする。
我々は、マルチタスク学習(MT-DTAN)を組み込むためにフレームワークを拡張し、同時調整と分類を可能にした。
論文 参考訳(メタデータ) (2025-02-10T15:55:08Z) - Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving [7.064497253920508]
特徴抽出器および密度モデリング技術としてのビジョンファウンデーションモデル(VFM)を提案する。
最先端のバイナリOOD分類法と比較すると、密度推定によるVFM埋め込みはOOD入力の同定において既存の手法よりも優れていることが分かる。
提案手法は,ダウンストリームタスクにおけるエラーの原因となる可能性のある高リスク入力を検出し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2025-01-14T12:51:34Z) - Interactive Test-Time Adaptation with Reliable Spatial-Temporal Voxels for Multi-Modal Segmentation [56.70910056845503]
マルチモーダルテストタイム適応(MM-TTA)は、補完的なマルチモーダル入力をオンライン形式で活用することにより、ラベルのないターゲットドメインにモデルを適応させる。
従来のMM-TTA法は, 時間的不整合によるフレームワイドの不安定な予測と, 信頼度誘導の仮定に反する不正確な予測の2つの大きな限界に悩まされていた。
Latte++は、より情報的な幾何学的対応によって不安定なフレーム単位の予測をより抑制し、対話型テスト時間適応(ITTA)は、努力を伴わない人間のフィードバックを促進するフレキシブルなアドオンである。
論文 参考訳(メタデータ) (2024-03-11T06:56:08Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。