論文の概要: Dual-Modality Anchor-Guided Filtering for Test-time Prompt Tuning
- arxiv url: http://arxiv.org/abs/2604.12403v1
- Date: Tue, 14 Apr 2026 07:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.31883
- Title: Dual-Modality Anchor-Guided Filtering for Test-time Prompt Tuning
- Title(参考訳): テストタイムプロンプトチューニングのためのデュアルモードアンカーガイドフィルタ
- Authors: Jungwon Choi, Eunwoo Kim,
- Abstract要約: Test-Time Prompt Tuningは、拡張ビューを使用して視覚言語モデルに適応する。
標準エントロピーに基づくフィルタリングはモデルの内部信頼度に依存する。
本稿では, セマンティックエビデンスにおけるビュー選択を基礎とした, 双対モダリティアンカー誘導フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.438370508252616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-Time Prompt Tuning (TPT) adapts vision-language models using augmented views, but its effectiveness is hindered by the challenge of determining which views are beneficial. Standard entropy-based filtering relies on the internal confidence scores of the model, which are often miscalibrated under distribution shift, assigning high confidence to irrelevant crops or background regions while ignoring semantic content. To address this, we propose a dual-modality anchor-guided framework that grounds view selection in semantic evidence. We introduce a text anchor from attribute-rich descriptions, to provide fine-grained class semantics, and an adaptive image anchor that captures evolving test-time statistics. Using these anchors, we filter views based on alignment and confidence, ensuring that only informative views guide adaptation. Moreover, we treat the anchors as auxiliary predictive heads and combine their predictions with the original output in a confidence-weighted ensemble, yielding a stable supervision signal for prompt updates. Extensive experiments on 15 benchmark datasets demonstrate new state-of-the-art performance, highlighting the contribution of anchor-guided supervision as a foundation for robust prompt updates.
- Abstract(参考訳): Test-Time Prompt Tuning (TPT)は、拡張ビューを使用して視覚言語モデルに適応するが、その有効性は、どのビューが有用かを決定するという課題によって妨げられる。
標準エントロピーに基づくフィルタリングは、しばしば分布シフトの下で誤解されるモデルの内部信頼スコアに依存し、意味的内容を無視しながら、無関係な作物や背景領域に高い信頼を割り当てる。
そこで本研究では, セマンティックエビデンスにおけるビュー選択を基盤とした, 両モードアンカー誘導型フレームワークを提案する。
属性に富んだ記述からテキストアンカーを導入し、クラスセマンティクスの微粒化と、進化するテスト時間統計をキャプチャする適応画像アンカーを提案する。
これらのアンカーを用いて、アライメントと信頼性に基づいてビューをフィルタリングし、情報的ビューのみが適応を導くことを保証する。
さらに,アンカーを補助的な予測ヘッドとして扱い,その予測を信頼度重み付けアンサンブルで元の出力と組み合わせることで,迅速な更新を行うための安定した監視信号を生成する。
15のベンチマークデータセットに関する大規模な実験は、新しい最先端のパフォーマンスを示し、堅牢な即時更新の基盤としてアンカーガイドによる監視の貢献を強調している。
関連論文リスト
- Explicit Uncertainty Modeling for Active CLIP Adaptation with Dual Prompt Tuning [51.99383151474742]
デュアルプロンプトチューニングに基づくアクティブCLIP適応のためのロバストな不確実性モデリングフレームワークを提案する。
提案手法は,同一のアノテーション予算の下で,既存のアクティブラーニング手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-02-04T09:01:55Z) - Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner [46.140724013144194]
CLIPのような大規模視覚言語モデル(VLM)は、ゼロショットの強い一般化を示すが、下流のタスクに適応するためには通常、コストのかかるラベル付きデータを必要とする。
既存の教師なしの自己学習手法は擬似ラベル化に依存しているが、信頼できない信頼度フィルタリング、確認バイアス、低信頼サンプルの未利用に悩まされることが多い。
我々は,デュアルモデル,クロスモーダル協調機構を通じてラベルのないデータを活用する,教師なし適応フレームワークであるCollaborative Fine-Tuning (CoFT)を提案する。
論文 参考訳(メタデータ) (2026-02-04T09:00:12Z) - Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models [59.242742594156546]
CoEvoは、テキストプロキシとビジュアルプロキシの両方を双方向でサンプル条件で適応するテストタイムフレームワークである。
CoEvoは最先端のパフォーマンスを実現し、AUROCを1.33%改善し、ImageNet-1KではFPR95を45.98%削減した。
論文 参考訳(メタデータ) (2026-01-13T12:08:26Z) - Doubly Debiased Test-Time Prompt Tuning for Vision-Language Models [43.35073848153914]
視覚言語モデルに対するテスト時プロンプトチューニングは、ゼロショット設定下での素晴らしい一般化機能を示している。
我々は、モデルとデータの観点から、迅速な最適化バイアスの根底にある原因を分析する。
論文 参考訳(メタデータ) (2025-11-12T09:35:31Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Feedback-Driven Pseudo-Label Reliability Assessment: Redefining Thresholding for Semi-Supervised Semantic Segmentation [5.7977777220041204]
擬似スーパービジョンの一般的な実践は、事前に定義された信頼しきい値やエントロピーに基づいて擬似ラベルをフィルタリングすることである。
疑似ラベル選択のための動的フィードバック駆動しきい値決定手法であるEnsemble-of-Confidence Reinforcement (ENCORE)を提案する。
提案手法は,既存の擬似スーパービジョンフレームワークにシームレスに統合され,セグメンテーション性能が大幅に向上する。
論文 参考訳(メタデータ) (2025-05-12T15:58:08Z) - Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - Enhancing Test Time Adaptation with Few-shot Guidance [62.49199492255226]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。