論文の概要: Test-Time Adaptive Object Detection with Foundation Model
- arxiv url: http://arxiv.org/abs/2510.25175v1
- Date: Wed, 29 Oct 2025 05:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.090734
- Title: Test-Time Adaptive Object Detection with Foundation Model
- Title(参考訳): 基礎モデルを用いたテスト時間適応物体検出
- Authors: Yingjie Gao, Yanan Zhang, Zhi Cai, Di Huang,
- Abstract要約: 本稿では,最初の基礎モデルを用いたテスト時適応オブジェクト検出手法を提案する。
視覚言語検出駆動テスト時間適応のためのマルチモーダルPromptベースのMean-Teacherフレームワークを設計する。
テストバッチ毎に高品質な擬似ラベルを保証するため、インスタンス動的メモリを維持します。
- 参考スコア(独自算出の注目度): 39.96498227103011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, test-time adaptive object detection has attracted increasing attention due to its unique advantages in online domain adaptation, which aligns more closely with real-world application scenarios. However, existing approaches heavily rely on source-derived statistical characteristics while making the strong assumption that the source and target domains share an identical category space. In this paper, we propose the first foundation model-powered test-time adaptive object detection method that eliminates the need for source data entirely and overcomes traditional closed-set limitations. Specifically, we design a Multi-modal Prompt-based Mean-Teacher framework for vision-language detector-driven test-time adaptation, which incorporates text and visual prompt tuning to adapt both language and vision representation spaces on the test data in a parameter-efficient manner. Correspondingly, we propose a Test-time Warm-start strategy tailored for the visual prompts to effectively preserve the representation capability of the vision branch. Furthermore, to guarantee high-quality pseudo-labels in every test batch, we maintain an Instance Dynamic Memory (IDM) module that stores high-quality pseudo-labels from previous test samples, and propose two novel strategies-Memory Enhancement and Memory Hallucination-to leverage IDM's high-quality instances for enhancing original predictions and hallucinating images without available pseudo-labels, respectively. Extensive experiments on cross-corruption and cross-dataset benchmarks demonstrate that our method consistently outperforms previous state-of-the-art methods, and can adapt to arbitrary cross-domain and cross-category target data. Code is available at https://github.com/gaoyingjay/ttaod_foundation.
- Abstract(参考訳): 近年、テスト時間適応型オブジェクト検出は、実際のアプリケーションシナリオとより密に連携するオンラインドメイン適応の独特な利点により、注目を集めている。
しかし、既存のアプローチは、ソースとターゲットドメインが同一のカテゴリ空間を共有するという強い仮定をしながら、ソース由来の統計特性に大きく依存している。
本稿では、ソースデータを完全に不要にし、従来のクローズドセット制限を克服する、最初の基礎モデルを用いたテスト時適応オブジェクト検出手法を提案する。
具体的には、テキストと視覚プロンプトを組み込んだ視覚言語検出駆動テスト時間適応のためのマルチモーダル Prompt ベースの Mean-Teacher フレームワークを設計し、テストデータ上の言語および視覚表現空間をパラメータ効率よく適応させる。
これに対応して,視覚枝の表現能力を効果的に維持するための視覚的プロンプトに適したテストタイムウォームスタート戦略を提案する。
さらに、テストバッチ毎に高品質な擬似ラベルを保証するために、従来のテストサンプルから高品質な擬似ラベルを格納するインスタンス動的メモリ(IDM)モジュールを維持し、それぞれが利用可能な擬似ラベルのないオリジナルの予測と幻覚画像を改善するために、IDMの高品質なインスタンスを活用するための2つの新しい戦略を提案する。
クロス破壊およびクロスデータセットベンチマークに関する大規模な実験は、我々の手法が従来手法よりも一貫して優れており、任意のクロスドメインおよびクロスカテゴリターゲットデータに適応できることを実証している。
コードはhttps://github.com/gaoyingjay/ttaod_foundation.comで入手できる。
関連論文リスト
- TAPS : Frustratingly Simple Test Time Active Learning for VLMs [0.0]
テスト時間最適化により、モデルはパラメータをオンザフライで更新することで、推論中に新しいデータに適応できる。
本研究では,不確実なサンプルを適応的にクエリし,動的に更新するテスト時アクティブラーニングフレームワークを提案する。
我々のフレームワークは、自律システムや医療診断などの安全クリティカルなアプリケーションに現実世界を配置するための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-26T18:04:49Z) - Think Twice before Adaptation: Improving Adaptability of DeepFake Detection via Online Test-Time Adaptation [1.7811840395202345]
ディープフェイク(DF)検出器は、現実世界の環境に展開する際、重大な課題に直面している。
ポストプロセッシング技術はDFサンプルで提示された成果物を不明瞭に生成する可能性があるため、性能が低下する。
本稿では,新しいオンラインテスト時間適応法であるThink Twice before Adaptation (textttT$2$A)を提案する。
論文 参考訳(メタデータ) (2025-05-24T16:58:53Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。
TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。
我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文 参考訳(メタデータ) (2024-03-19T17:54:34Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。