論文の概要: ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation
- arxiv url: http://arxiv.org/abs/2603.11542v1
- Date: Thu, 12 Mar 2026 04:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.898537
- Title: ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation
- Title(参考訳): ReHARK:ロバストワンショットビジョンランゲージ適応のためのハイブリッド適応RBFカーネル
- Authors: Md Jahidul Islam,
- Abstract要約: ReHARKは、グローバルな近位正規化を通じて、少数ショット適応を再解釈する、トレーニング不要のフレームワークである。
ワンショット適応のための新しい最先端技術がReHARKによって確立され、平均精度は65.83%である。
- 参考スコア(独自算出の注目度): 3.8707695363745214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The adaptation of large-scale Vision-Language Models (VLMs) like CLIP to downstream tasks with extremely limited data -- specifically in the one-shot regime -- is often hindered by a significant "Stability-Plasticity" dilemma. While efficient caching mechanisms have been introduced by training-free methods such as Tip-Adapter, these approaches often function as local Nadaraya-Watson estimators. Such estimators are characterized by inherent boundary bias and a lack of global structural regularization. In this paper, ReHARK (Refined Hybrid Adaptive RBF Kernels) is proposed as a synergistic training-free framework that reinterprets few-shot adaptation through global proximal regularization in a Reproducing Kernel Hilbert Space (RKHS). A multistage refinement pipeline is introduced, consisting of: (1) Hybrid Prior Construction, where zero-shot textual knowledge from CLIP and GPT-3 is fused with visual class prototypes to form a robust semantic-visual anchor; (2) Support Set Augmentation (Bridging), where intermediate samples are generated to smooth the transition between visual and textual modalities; (3) Adaptive Distribution Rectification, where test feature statistics are aligned with the augmented support set to mitigate domain shifts; and (4) Multi-Scale RBF Kernels, where an ensemble of kernels is employed to capture complex feature geometries across diverse scales. Superior stability and accuracy are demonstrated through extensive experiments on 11 diverse benchmarks. A new state-of-the-art for one-shot adaptation is established by ReHARK, which achieves an average accuracy of 65.83%, significantly outperforming existing baselines. Code is available at https://github.com/Jahid12012021/ReHARK.
- Abstract(参考訳): CLIPのような大規模ビジョン・ランゲージ・モデル(VLM)を、非常に限られたデータ(特にワンショット・レシエーションにおいて)で下流タスクに適応させることは、しばしば重大な「安定性-弾力性」ジレンマによって妨げられる。
Tip-Adapterのようなトレーニング不要の手法によって効率的なキャッシュ機構が導入されたが、これらの手法はしばしばローカルなNadaraya-Watson推定器として機能する。
このような推定子は、固有の境界バイアスと大域的構造正規化の欠如によって特徴づけられる。
本稿では,RKHSにおいて,RHARK(Refined Hybrid Adaptive RBF Kernels)を提案する。
1)CLIPとGPT-3のゼロショットテキストによる知識を融合して堅牢なセマンティック・ビジュアル・アンカーを形成するハイブリッドプリエント・コンストラクション(Hybrid Prior Construction)、(2)視覚的・テキスト的モダリティ間の遷移を円滑にするために中間サンプルが生成されるセット拡張(Bridging)、(3)テスト特徴統計をドメインシフトを緩和するための拡張サポートセットと整合させる適応型分散レクリエーション(Adaptive Distribution Rectification)、(4)カーネルのアンサンブルをさまざまなスケールで捉えるためのマルチスケールRBFカーネル(Multi-Scale RBF Kernels)で構成されている。
上位安定性と精度は、11種類の異なるベンチマークで広範な実験によって実証される。
ReHARKは65.83%の精度を達成し、既存のベースラインを大幅に上回っている。
コードはhttps://github.com/Jahid12012021/ReHARKで入手できる。
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Localized Kernel Projection Outlyingness: A Two-Stage Approach for Multi-Modal Outlier Detection [0.0]
Two-Stage LKPLOは、新しいマルチステージアウトレイラ検出フレームワークである。
従来の射影的手法の制約を克服する。
挑戦的なデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T03:53:46Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.22287224290769]
H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文 参考訳(メタデータ) (2025-08-05T05:56:30Z) - Towards Initialization-Agnostic Clustering with Iterative Adaptive Resonance Theory [8.312275539092466]
Iterative Refinement Adaptive Resonance Theory (IR-ART)は、3つの重要な位相を統合された反復的フレームワークに統合する。
IR-ARTは、ファジィARTのパラメータ単純性を保ちながら、準最適警戒パラメータ値に対する耐性を向上させる。
ケーススタディは、反復的な改善を通じてアルゴリズムの自己最適化能力を視覚的に確認する。
論文 参考訳(メタデータ) (2025-05-07T14:12:39Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
一般的な類似性に基づく機能アップサンプリングパイプラインが提案されている。
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
我々は,モーザイクアーティファクトを緩和する上ではシンプルだが有効であるHR特徴に対して,きめ細かな近傍選択戦略を開発する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。