論文の概要: Efficient Self-Supervised Video Hashing with Selective State Spaces
- arxiv url: http://arxiv.org/abs/2412.14518v1
- Date: Thu, 19 Dec 2024 04:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:50.592432
- Title: Efficient Self-Supervised Video Hashing with Selective State Spaces
- Title(参考訳): 選択状態空間を用いた効率的な自己監督型ビデオハッシュ
- Authors: Jinpeng Wang, Niu Lian, Jun Li, Yuting Wang, Yan Feng, Bin Chen, Yongbing Zhang, Shu-Tao Xia,
- Abstract要約: 自己監督型ビデオハッシュ(SSVH)は,ビデオインデックス作成と検索の実践的課題である。
本稿では,マンバをベースとしたビデオハッシュモデルであるS5VHを紹介する。
- 参考スコア(独自算出の注目度): 63.83300352372051
- License:
- Abstract: Self-supervised video hashing (SSVH) is a practical task in video indexing and retrieval. Although Transformers are predominant in SSVH for their impressive temporal modeling capabilities, they often suffer from computational and memory inefficiencies. Drawing inspiration from Mamba, an advanced state-space model, we explore its potential in SSVH to achieve a better balance between efficacy and efficiency. We introduce S5VH, a Mamba-based video hashing model with an improved self-supervised learning paradigm. Specifically, we design bidirectional Mamba layers for both the encoder and decoder, which are effective and efficient in capturing temporal relationships thanks to the data-dependent selective scanning mechanism with linear complexity. In our learning strategy, we transform global semantics in the feature space into semantically consistent and discriminative hash centers, followed by a center alignment loss as a global learning signal. Our self-local-global (SLG) paradigm significantly improves learning efficiency, leading to faster and better convergence. Extensive experiments demonstrate S5VH's improvements over state-of-the-art methods, superior transferability, and scalable advantages in inference efficiency. Code is available at https://github.com/gimpong/AAAI25-S5VH.
- Abstract(参考訳): 自己監督型ビデオハッシュ(SSVH)は,ビデオインデックス作成と検索の実践的課題である。
トランスフォーマーは時空モデリング能力でSSVHが主流だが、計算やメモリの非効率に悩まされることが多い。
先進的な状態空間モデルであるMambaからインスピレーションを得て、SSVHにおけるその可能性を探り、有効性と効率のバランスを改善する。
本稿では,マンバをベースとしたビデオハッシュモデルであるS5VHを紹介する。
具体的には、エンコーダとデコーダの両方に対して双方向のマンバ層を設計し、線形複雑性を伴うデータ依存選択的走査機構により、時間的関係を効果的かつ効率的に取得する。
学習戦略では,特徴空間におけるグローバルな意味論を意味論的に一貫した,差別的なハッシュセンタに変換し,さらに中心的なアライメント損失をグローバルな学習信号とする。
我々の自己局所言語(SLG)パラダイムは学習効率を著しく向上させ、より高速でより良い収束をもたらす。
大規模な実験により、S5VHは最先端の手法、優れた転送性、および推論効率のスケーラブルな優位性を実証した。
コードはhttps://github.com/gimpong/AAAI25-S5VHで公開されている。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality [16.576495786546612]
隠れ状態ミキサーを用いた状態空間双対性(HSM-SSD)に基づく新しいアーキテクチャであるEfficient Vision Mamba(EfficientViM)を紹介する。
HSM-SSD層は、隠れ状態内のチャネル混合操作を可能にする。
その結果、EfficientViMファミリはImageNet-1k上で新しい最先端のスピード精度トレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-22T02:02:06Z) - Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - HiCo: Hierarchical Contrastive Learning for Ultrasound Video Model
Pretraining [22.85475242323536]
自己監督型超音波(US)ビデオモデルプレトレーニングは、少量のラベル付きデータを用いて、米国の診断において最も有望な結果の1つを達成することができる。
本研究では,階層型コントラスト学習(HiCo)手法を提案する。
論文 参考訳(メタデータ) (2022-10-10T08:07:17Z) - Large Scale Time-Series Representation Learning via Simultaneous Low and
High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。
提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。
モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-04-24T14:39:47Z) - ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search [94.90294600817215]
高速なオンラインビデオポーズ推定のための空間的・時間的ネットワークに対する新しいニューラルネットワーク探索(NAS)手法(ViPNAS)を提案する。
空間レベルでは,ネットワーク深さ,幅,カーネルサイズ,グループ数,注目度などの5つの異なる次元の探索空間を慎重に設計する。
時間レベルでは、一連の時間的特徴融合から検索し、複数のビデオフレームの合計精度と速度を最適化する。
論文 参考訳(メタデータ) (2021-05-21T06:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。