論文の概要: Robust Test-time Video-Text Retrieval: Benchmarking and Adapting for Query Shifts
- arxiv url: http://arxiv.org/abs/2604.20851v1
- Date: Sun, 15 Feb 2026 05:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.108634
- Title: Robust Test-time Video-Text Retrieval: Benchmarking and Adapting for Query Shifts
- Title(参考訳): ロバストなテスト時間ビデオテキスト検索:クエリシフトのベンチマークと適応
- Authors: Bingqing Zhang, Zhuo Cao, Heming Du, Yang Li, Xue Li, Jiajun Liu, Sen Wang,
- Abstract要約: ビデオテキスト検索(VTR)モデルは、現実世界のクエリシフトに対して非常に脆弱である。
本稿では,HAT-VTR(Hubness Alleviation for Test-time Video-Text Retrieval)をベースラインテストタイム適応フレームワークとして提案する。
大規模な実験により、HAT-VTRはロバスト性を大幅に改善し、さまざまなクエリシフトシナリオで一貫してメソッドのパフォーマンスが向上することが示された。
- 参考スコア(独自算出の注目度): 28.52079785516312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern video-text retrieval (VTR) models excel on in-distribution benchmarks but are highly vulnerable to real-world query shifts, where the distribution of query data deviates from the training domain, leading to a sharp performance drop. Existing image-focused robustness solutions are inadequate to handle this vulnerability in video, as they fail to address the complex spatio-temporal dynamics inherent in these shifts. To systematically evaluate this vulnerability, we first introduce a comprehensive benchmark featuring 12 distinct types of video perturbations across five severity degrees. Analysis on this benchmark reveals that query shifts amplify the hubness phenomenon, where a few gallery items become dominant "hubs" that attract a disproportionate number of queries. To mitigate this, we then propose HAT-VTR (Hubness Alleviation for Test-time Video-Text Retrieval), as our baseline test-time adaptation framework designed to directly counteract hubness in VTR. It leverages two key components: a Hubness Suppression Memory to refine similarity scores, and multi-granular losses to enforce temporal feature consistency. Extensive experiments demonstrate that HAT-VTR substantially improves robustness, consistently outperforming prior methods across diverse query shift scenarios, and enhancing model reliability for real-world applications.
- Abstract(参考訳): 現代のビデオテキスト検索(VTR)モデルは、分散ベンチマークでは優れているが、実際のクエリシフトに対して非常に脆弱であり、クエリデータの分散はトレーニング領域から逸脱し、パフォーマンスが急落する。
既存の画像中心のロバストネスソリューションは、これらのシフトに固有の複雑な時空間的ダイナミクスに対処できないため、この脆弱性をビデオで扱うには不十分である。
この脆弱性を体系的に評価するために、我々はまず、12種類のビデオ摂動を5度に分けた総合的なベンチマークを導入する。
このベンチマークの分析によると、クエリシフトはハブ性現象を増幅し、いくつかのギャラリーアイテムが支配的な"ハーブ"となり、不均等な数のクエリを引き付ける。
そこで我々は,HAT-VTR(Hubness Alleviation for Test-time Video-Text Retrieval)を提案する。
類似性のスコアを洗練するためのHubness Suppression Memoryと、時間的機能の一貫性を強制する複数のグラニュラロスという、2つの重要なコンポーネントを活用している。
大規模な実験により、HAT-VTRはロバスト性を大幅に改善し、様々なクエリシフトシナリオにわたる先行メソッドを一貫して上回り、現実世界のアプリケーションに対するモデルの信頼性を高めている。
関連論文リスト
- Dual-level Adaptation for Multi-Object Tracking: Building Test-Time Calibration from Experience and Intuition [29.371401864045115]
テスト時間適応(TTA)は、そのような分散シフトを軽減するための有望なパラダイムとして登場した。
本稿では,経験と直観からのテストタイム(TCEI)フレームワークを提案する。
このフレームワークでは、過渡記憶を利用して、最近観測されたオブジェクトをリコールし、迅速な予測を行う。
オンラインテストにおける確実なオブジェクトと不確実なオブジェクトは、歴史的先行と反射的ケースとして活用される。
論文 参考訳(メタデータ) (2026-03-23T06:50:28Z) - RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval [99.33724613432922]
本稿では,ビデオ検索のための推論に基づくリランカであるRANKVIDEOを紹介する。
RANKVIDEOは、関連性を評価するためにビデオコンテンツを使用するクエリ-ビデオペアを明示的に理由付けている。
大規模なMultiVENT 2.0ベンチマークの実験では、RANKVIDEOは2段階のフレームワーク内での検索性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-02T18:40:37Z) - DUAL-VAD: Dual Benchmarks and Anomaly-Focused Sampling for Video Anomaly Detection [8.294763803639391]
ビデオ異常検出(VAD)は、監視と公衆の安全のために重要である。
既存のベンチマークはフレームレベルかビデオレベルのタスクに限られている。
本研究は、フルビデオカバレッジを維持しながら、異常度セグメントを優先するソフトマックスベースのフレーム割り当て戦略を導入する。
論文 参考訳(メタデータ) (2025-09-15T05:48:22Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - Enhancing Test Time Adaptation with Few-shot Guidance [62.49199492255226]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - Not All Pairs are Equal: Hierarchical Learning for Average-Precision-Oriented Video Retrieval [80.09819072780193]
平均精度(AP)は、関連ビデオのランキングを上位リストで評価する。
最近のビデオ検索手法は、全てのサンプル対を等しく扱うペアワイズ損失を利用する。
論文 参考訳(メタデータ) (2024-07-22T11:52:04Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。