論文の概要: Delving Deeper: Hierarchical Visual Perception for Robust Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2601.12768v1
- Date: Mon, 19 Jan 2026 06:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.783892
- Title: Delving Deeper: Hierarchical Visual Perception for Robust Video-Text Retrieval
- Title(参考訳): Delving Deeper:ロバストなビデオテキスト検索のための階層的な視覚知覚
- Authors: Zequn Xie, Boyun Zhang, Yuxiao Lin, Tao Jin,
- Abstract要約: ビデオテキスト検索(VTR)は、自然言語クエリを用いて関連ビデオを見つけることを目的としている。
現在の方法は、しばしばCLIPのようなトレーニング済みモデルに基づいており、ビデオ固有の冗長性と、粗い最終層機能への依存によって妨げられている。
視覚エンコーダの複数の中間層から特徴を抽出・精錬することで、よりリッチなビデオセマンティクスをマイニングするフレームワークであるHVP-Netを導入する。
- 参考スコア(独自算出の注目度): 9.243219818283263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-text retrieval (VTR) aims to locate relevant videos using natural language queries. Current methods, often based on pre-trained models like CLIP, are hindered by video's inherent redundancy and their reliance on coarse, final-layer features, limiting matching accuracy. To address this, we introduce the HVP-Net (Hierarchical Visual Perception Network), a framework that mines richer video semantics by extracting and refining features from multiple intermediate layers of a vision encoder. Our approach progressively distills salient visual concepts from raw patch-tokens at different semantic levels, mitigating redundancy while preserving crucial details for alignment. This results in a more robust video representation, leading to new state-of-the-art performance on challenging benchmarks including MSRVTT, DiDeMo, and ActivityNet. Our work validates the effectiveness of exploiting hierarchical features for advancing video-text retrieval. Our codes are available at https://github.com/boyun-zhang/HVP-Net.
- Abstract(参考訳): ビデオテキスト検索(VTR)は、自然言語クエリを用いて関連ビデオを見つけることを目的としている。
現在の方法は、しばしばCLIPのようなトレーニング済みモデルに基づいており、ビデオ固有の冗長性と、粗い最終層機能への依存、マッチング精度の制限によって妨げられている。
この問題を解決するために、視覚エンコーダの複数の中間層から特徴を抽出・精錬することにより、よりリッチなビデオ意味論をマイニングするフレームワークであるHVP-Net(Hierarchical Visual Perception Network)を導入する。
提案手法は,異なる意味レベルで生のパッチトークンから健全な視覚概念を段階的に蒸留し,冗長性を軽減し,アライメントの重要な詳細を保存している。
これにより、より堅牢なビデオ表現が実現し、MSRVTT、DiDeMo、ActivityNetといった挑戦的なベンチマークにおいて、最先端のパフォーマンスが新たに向上した。
本研究は,ビデオテキスト検索における階層的特徴の活用の有効性を検証する。
私たちのコードはhttps://github.com/boyun-zhang/HVP-Net.comで公開されています。
関連論文リスト
- Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval [53.54695034420311]
実際には、ビデオは通常、より複雑な背景コンテンツによって、長い時間で切り離される。
本稿では,大規模視覚言語事前学習モデルから一般化知識を抽出する新しい枠組みを提案する。
実験により,本モデルがTVR,ActivityNet,Charades-STAデータセット上での最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-10-14T08:38:20Z) - LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts [19.81035705650859]
長いビデオテキスト検索用に特別に設計されたベンチマークであるLoVRを紹介する。
LoVRには467本の長編ビデオと40,804本の細かなクリップがあり、高品質なキャプションがある。
私たちのベンチマークでは、より長いビデオ、より詳細なキャプション、より大規模なデータセットを導入しています。
論文 参考訳(メタデータ) (2025-05-20T04:49:09Z) - Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。