論文の概要: Res$^2$CLIP: Few-Shot Generalist Anomaly Detection with Residual-to-Residual Alignment
- arxiv url: http://arxiv.org/abs/2605.16171v1
- Date: Fri, 15 May 2026 16:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.380356
- Title: Res$^2$CLIP: Few-Shot Generalist Anomaly Detection with Residual-to-Residual Alignment
- Title(参考訳): Res$^2$CLIP: Residual-to-Residualアライメントを用いたFew-Shot Generalist Anomaly Detection
- Authors: Xinyue Liu, Jianyuan Wang, Biao Leng, Shuo Zhang,
- Abstract要約: 数ショットのジェネラリスト異常検出は、再訓練なしに新しいカテゴリに一般化するモデルを必要とする。
粗い粒度の統一されたテキストプロンプトは、きめ細かい前景と背景の違いに対応するのに苦労する。
我々は,多モードアライメントを完全に統一された残差空間にシフトさせることを提案し,残差表現は自然にきめ細かい通常の特徴差を除去する。
- 参考スコア(独自算出の注目度): 21.61732087909472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot Generalist Anomaly Detection requires models to generalize to novel categories without retraining, posing significant challenges in real-world scenarios with scarce samples and rapidly changing categories. Existing CLIP-based methods face two major challenges: coarse-grained unified text prompts struggle to adapt to fine-grained foreground-background differences, causing cross-granularity mismatch; and fine-tuning on auxiliary datasets disrupts CLIP's inherent open-world generalization due to domain shift, leading to cross-category generalization degradation. To address these, we propose to shift multimodal alignment entirely into a unified residual space, where residual representations naturally eliminate fine-grained normal feature differences across regions and class-specific biases, simultaneously resolving both problems. Based on this insight, Res$^2$CLIP, the first residual-to-residual alignment framework that symmetrically bridges visual and text modalities within CLIP's residual space, is designed. The framework is developed from a residual perspective into three branches: a text prompt-based branch, a visual prompt-based branch, and a novel residual-to-residual alignment branch. All learnable optimizations are constrained within the residual domain, and the residual alignment optimization objectives are designed to force the model to focus on relative anomaly deviations rather than optimizing class-specific features. Experiments on multiple datasets demonstrate the effectiveness of our architecture. The code is available at https://github.com/hito2448/Res2CLIP.
- Abstract(参考訳): 少数ショットのジェネラリスト異常検出は、リトレーニングなしで新しいカテゴリに一般化するモデルを必要とし、サンプルの不足と急速に変化するカテゴリによる現実シナリオにおいて重大な課題を提起する。
既存のCLIPベースのメソッドは、2つの大きな課題に直面している: 粗い粒度の統一されたテキストは、きめ細かな前景と背景の相違に適応し、粒度の交差するミスマッチを引き起こし、補助的なデータセットの微調整は、ドメインシフトによるCLIP固有のオープンワールドの一般化を妨害し、クロスカテゴリの一般化が低下する。
これらの問題に対処するために、我々は多重モーダルアライメントを完全に統一された残差空間にシフトし、残差表現は自然に領域間のきめ細かい正規特徴差とクラス固有の偏差を排除し、両問題を同時に解決することを提案する。
この知見に基づいて、CLIPの残余空間内の視覚的・テキスト的モダリティを対称的に橋渡しする最初の残留・残留アライメントフレームワークであるRes$^2$CLIPが設計されている。
フレームワークは、残差の観点から、テキストプロンプトベースのブランチ、ビジュアルプロンプトベースのブランチ、新しい残差残差アライメントブランチの3つに分けられる。
すべての学習可能な最適化は残差領域内で制約され、残差アライメント最適化の目的は、クラス固有の特徴を最適化するのではなく、相対的な異常な偏差に集中するように設計されている。
複数のデータセットの実験では、アーキテクチャの有効性が示されています。
コードはhttps://github.com/hito2448/Res2CLIPで入手できる。
関連論文リスト
- ATRS: Adaptive Trajectory Re-splitting via a Shared Neural Policy for Parallel Optimization [14.810654249835572]
並列ADMMループに共有のDeep Reinforcement Learningポリシーを組み込む新しいフレームワークであるATRSを提案する。
我々は、ATRS収束が26.2%まで加速し、計算時間が19.1%まで加速することを示した。
実世界の実験は、大規模なオフライングローバル計画とリアルタイムオンボード計画の両方に1サイクルあたり35ミリ秒以内の適用性をさらに確認する。
論文 参考訳(メタデータ) (2026-04-24T16:58:14Z) - From Global to Local: Rethinking CLIP Feature Aggregation for Person Re-Identification [20.74226476678832]
中間パッチトークンとCLIPのテキスト埋め込み空間でパラメータ化されたアンカーベクトルを整列することで、同一性表現を再構築するSAGA-ReIDを提案する。
制御された実験は、2つの定性的に異なる条件下で凝集機構を分離する。
ベンチマーク評価では、CLIP-ReIDよりも標準設定と無視設定で一貫したゲインを確認している。
論文 参考訳(メタデータ) (2026-04-24T03:37:21Z) - Semantic-based Distributed Learning for Diverse and Discriminative Representations [26.214742067718277]
大規模分散シナリオでは、ますます複雑なタスクはネットワーク間のよりインテリジェントなコラボレーションを要求する。
多様な表現と差別的な表現を両立させる分散学習フレームワークを提案する。
どちらの場合も、得られる最適解は理論的に差別的かつ多様な性質を維持することが証明される。
論文 参考訳(メタデータ) (2026-04-20T13:22:58Z) - ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation [3.8707695363745214]
ReHARKは、グローバルな近位正規化を通じて、少数ショット適応を再解釈する、トレーニング不要のフレームワークである。
ワンショット適応のための新しい最先端技術がReHARKによって確立され、平均精度は65.83%である。
論文 参考訳(メタデータ) (2026-03-12T04:59:09Z) - HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。
中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。
デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文 参考訳(メタデータ) (2026-01-24T10:31:21Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。
本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-14T08:24:57Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。