論文の概要: Efficient Self-Supervised Video Hashing with Selective State Spaces
- arxiv url: http://arxiv.org/abs/2412.14518v1
- Date: Thu, 19 Dec 2024 04:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 18:44:15.993868
- Title: Efficient Self-Supervised Video Hashing with Selective State Spaces
- Title(参考訳): 選択状態空間を用いた効率的な自己監督型ビデオハッシュ
- Authors: Jinpeng Wang, Niu Lian, Jun Li, Yuting Wang, Yan Feng, Bin Chen, Yongbing Zhang, Shu-Tao Xia,
- Abstract要約: 自己監督型ビデオハッシュ(SSVH)は,ビデオインデックス作成と検索の実践的課題である。
本稿では,マンバをベースとしたビデオハッシュモデルであるS5VHを紹介する。
- 参考スコア(独自算出の注目度): 63.83300352372051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised video hashing (SSVH) is a practical task in video indexing and retrieval. Although Transformers are predominant in SSVH for their impressive temporal modeling capabilities, they often suffer from computational and memory inefficiencies. Drawing inspiration from Mamba, an advanced state-space model, we explore its potential in SSVH to achieve a better balance between efficacy and efficiency. We introduce S5VH, a Mamba-based video hashing model with an improved self-supervised learning paradigm. Specifically, we design bidirectional Mamba layers for both the encoder and decoder, which are effective and efficient in capturing temporal relationships thanks to the data-dependent selective scanning mechanism with linear complexity. In our learning strategy, we transform global semantics in the feature space into semantically consistent and discriminative hash centers, followed by a center alignment loss as a global learning signal. Our self-local-global (SLG) paradigm significantly improves learning efficiency, leading to faster and better convergence. Extensive experiments demonstrate S5VH's improvements over state-of-the-art methods, superior transferability, and scalable advantages in inference efficiency. Code is available at https://github.com/gimpong/AAAI25-S5VH.
- Abstract(参考訳): 自己監督型ビデオハッシュ(SSVH)は,ビデオインデックス作成と検索の実践的課題である。
トランスフォーマーは時空モデリング能力でSSVHが主流だが、計算やメモリの非効率に悩まされることが多い。
先進的な状態空間モデルであるMambaからインスピレーションを得て、SSVHにおけるその可能性を探り、有効性と効率のバランスを改善する。
本稿では,マンバをベースとしたビデオハッシュモデルであるS5VHを紹介する。
具体的には、エンコーダとデコーダの両方に対して双方向のマンバ層を設計し、線形複雑性を伴うデータ依存選択的走査機構により、時間的関係を効果的かつ効率的に取得する。
学習戦略では,特徴空間におけるグローバルな意味論を意味論的に一貫した,差別的なハッシュセンタに変換し,さらに中心的なアライメント損失をグローバルな学習信号とする。
我々の自己局所言語(SLG)パラダイムは学習効率を著しく向上させ、より高速でより良い収束をもたらす。
大規模な実験により、S5VHは最先端の手法、優れた転送性、および推論効率のスケーラブルな優位性を実証した。
コードはhttps://github.com/gimpong/AAAI25-S5VHで公開されている。
関連論文リスト
- Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - COMODO: Cross-Modal Video-to-IMU Distillation for Efficient Egocentric Human Activity Recognition [3.271109623410664]
ビデオモダリティからIMUモダリティへのリッチな意味的知識をラベル付きアノテーションを必要とせずに伝達するクロスモーダルな自己教師型蒸留フレームワークであるCOMODOを提案する。
我々のアプローチは、IMUエンコーダが実世界のアプリケーションのためにその効率を保ちながら、ビデオからリッチなセマンティック情報を継承することを可能にする。
論文 参考訳(メタデータ) (2025-03-10T12:43:51Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Enhancing data efficiency in reinforcement learning: a novel imagination
mechanism based on mesh information propagation [0.3729614006275886]
Imagination Mechanism (IM) と呼ばれる新しいメッシュ情報伝達機構を導入する。
IMは、単一のサンプルによって生成された情報を、エピソード間で異なる状態に効果的にブロードキャストすることを可能にする。
汎用性を促進するため,他の広く採用されているRLアルゴリズムにシームレスかつ流動的に統合可能なプラグイン・アンド・プレイモジュールとして機能するIMを拡張した。
論文 参考訳(メタデータ) (2023-09-25T16:03:08Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - HiCo: Hierarchical Contrastive Learning for Ultrasound Video Model
Pretraining [22.85475242323536]
自己監督型超音波(US)ビデオモデルプレトレーニングは、少量のラベル付きデータを用いて、米国の診断において最も有望な結果の1つを達成することができる。
本研究では,階層型コントラスト学習(HiCo)手法を提案する。
論文 参考訳(メタデータ) (2022-10-10T08:07:17Z) - Large Scale Time-Series Representation Learning via Simultaneous Low and
High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。
提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。
モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-04-24T14:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。