論文の概要: AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing
- arxiv url: http://arxiv.org/abs/2504.03587v1
- Date: Fri, 04 Apr 2025 16:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 16:03:56.888372
- Title: AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing
- Title(参考訳): AutoSSVH: 効率的な自己監督型ビデオハッシュのための自動フレームサンプリング
- Authors: Niu Lian, Jun Li, Jinpeng Wang, Ruisheng Luo, Yaowei Wang, Shu-Tao Xia, Bin Chen,
- Abstract要約: Self-Supervised Video Hashing (SSVH)は、動画をハッシュコードに圧縮し、ラベルなしのトレーニングビデオを使用して効率的なインデックス付けと検索を行う。
既存のアプローチは、ビデオの特徴を学習し、すべてのフレームを平等に扱うためにランダムなフレームサンプリングに依存している。
本稿では,ハッシュベースのコントラスト学習を用いた対数フレームサンプリングを用いたAutoSSVHという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 72.10024026634976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-Supervised Video Hashing (SSVH) compresses videos into hash codes for efficient indexing and retrieval using unlabeled training videos. Existing approaches rely on random frame sampling to learn video features and treat all frames equally. This results in suboptimal hash codes, as it ignores frame-specific information density and reconstruction difficulty. To address this limitation, we propose a new framework, termed AutoSSVH, that employs adversarial frame sampling with hash-based contrastive learning. Our adversarial sampling strategy automatically identifies and selects challenging frames with richer information for reconstruction, enhancing encoding capability. Additionally, we introduce a hash component voting strategy and a point-to-set (P2Set) hash-based contrastive objective, which help capture complex inter-video semantic relationships in the Hamming space and improve the discriminability of learned hash codes. Extensive experiments demonstrate that AutoSSVH achieves superior retrieval efficacy and efficiency compared to state-of-the-art approaches. Code is available at https://github.com/EliSpectre/CVPR25-AutoSSVH.
- Abstract(参考訳): Self-Supervised Video Hashing (SSVH)は、動画をハッシュコードに圧縮し、ラベルなしのトレーニングビデオを使用して効率的なインデックス付けと検索を行う。
既存のアプローチは、ビデオの特徴を学習し、すべてのフレームを平等に扱うためにランダムなフレームサンプリングに依存している。
これにより、フレーム固有の情報密度や再構成の難しさを無視するため、準最適ハッシュ符号が生成される。
この制限に対処するために,ハッシュベースのコントラスト学習を用いた対数フレームサンプリングを用いたAutoSSVHという新しいフレームワークを提案する。
対戦型サンプリング戦略は、再構成、エンコード機能強化のために、よりリッチな情報を持つ挑戦的なフレームを自動的に識別し、選択する。
さらに,ハミング空間における複雑なビデオ間セマンティックな関係を捉え,学習したハッシュコードの識別性を向上させるために,ハッシュコンポーネント投票戦略とP2Set(point-to-set)ハッシュベースのコントラスト目的を導入する。
総合的な実験により,AutoSSVHは最先端のアプローチに比べて高い検索効率と効率を達成することが示された。
コードはhttps://github.com/EliSpectre/CVPR25-AutoSSVHで公開されている。
関連論文リスト
- VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - CHAIN: Exploring Global-Local Spatio-Temporal Information for Improved
Self-Supervised Video Hashing [45.216750448864275]
ローカルな冗長性と複雑なグローバルなビデオフレームのため、ビデオ検索の正確なハッシュを学習することは困難である。
提案するContrastive Hash-temporal Information (CHAIN) は、4つのビデオベンチマークデータセット上で最先端の自己監督型ビデオハッシュ法より優れている。
論文 参考訳(メタデータ) (2023-10-29T07:36:11Z) - Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video
Retrieval [67.52910255064762]
時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
まず、時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
自己スーパービジョンから得られたセマンティック類似性知識の助けを借りて、ハッシュ層はセマンティック検索のための情報を取得することを学習する。
このようにして、モデルは自然に二進的なコードに絡み合ったセマンティクスを保存します。
論文 参考訳(メタデータ) (2023-10-12T03:21:12Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Self-Distilled Hashing for Deep Image Retrieval [25.645550298697938]
ハッシュベースの画像検索システムでは、元の入力から変換された入力は通常、異なるコードを生成する。
本稿では,拡張データの可能性を活用しつつ,相違を最小限に抑えるために,自己蒸留ハッシュ方式を提案する。
また、ハッシュプロキシに基づく類似性学習や、バイナリクロスエントロピーに基づく量子化損失を導入し、高品質なハッシュコードを提供する。
論文 参考訳(メタデータ) (2021-12-16T12:01:50Z) - DVHN: A Deep Hashing Framework for Large-scale Vehicle Re-identification [5.407157027628579]
本稿では、メモリ使用量を大幅に削減し、検索効率を向上させるディープハッシュベースの車両再識別フレームワークDVHNを提案する。
DVHNは、特徴学習ネットワークとハッシュコード生成モジュールとを協調最適化することにより、各画像の離散コンパクトなバイナリハッシュコードを直接学習する。
2048ドルビットの textbfDVHN は textbfmAP と textbfRank@1 for textbfVehicleID (800) データセットで 13.94% と 10.21% の精度向上を達成できる。
論文 参考訳(メタデータ) (2021-12-09T14:11:27Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。