論文の概要: SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2404.01174v1
- Date: Mon, 1 Apr 2024 15:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:05:48.895432
- Title: SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding
- Title(参考訳): SpikeMba: テンポラルビデオグラウンドのためのマルチモーダルスパイス・サイレンシー・マンバ
- Authors: Wenrui Li, Xiaopeng Hong, Xiaopeng Fan,
- Abstract要約: 時間的ビデオグラウンドティングのための小説『SpikeMba: multi-modal spiking saliency mamba』を紹介する。
本研究では、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合し、マルチモーダル特徴のきめ細かい関係を効果的に捉える。
我々の実験は、主流ベンチマークにおける最先端手法を一貫して上回るSpikeMbaの有効性を実証した。
- 参考スコア(独自算出の注目度): 39.28324184037475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal video grounding (TVG) is a critical task in video content understanding. Despite significant advancements, existing methods often limit in capturing the fine-grained relationships between multimodal inputs and the high computational costs with processing long video sequences. To address these limitations, we introduce a novel SpikeMba: multi-modal spiking saliency mamba for temporal video grounding. In our work, we integrate the Spiking Neural Networks (SNNs) and state space models (SSMs) to capture the fine-grained relationships of multimodal features effectively. Specifically, we introduce the relevant slots to enhance the model's memory capabilities, enabling a deeper contextual understanding of video sequences. The contextual moment reasoner leverages these slots to maintain a balance between contextual information preservation and semantic relevance exploration. Simultaneously, the spiking saliency detector capitalizes on the unique properties of SNNs to accurately locate salient proposals. Our experiments demonstrate the effectiveness of SpikeMba, which consistently outperforms state-of-the-art methods across mainstream benchmarks.
- Abstract(参考訳): 時間的ビデオグラウンドティング(TVG)は,映像コンテンツ理解において重要な課題である。
大幅な進歩にもかかわらず、既存の手法は、長いビデオシーケンスを処理する際に、マルチモーダル入力と高い計算コストの間のきめ細かい関係を捉えるのに制限されることが多い。
これらの制約に対処するために、時間的ビデオグラウンドティングのための新しいスパイクムバ、マルチモーダルスパイクサリエンシ・マンバを紹介した。
本研究では、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合し、マルチモーダル特徴のきめ細かい関係を効果的に捉える。
具体的には、関連スロットを導入して、モデルのメモリ能力を向上し、ビデオシーケンスのより深いコンテキスト理解を可能にする。
文脈的モーメント推論器はこれらのスロットを活用し、文脈的情報保存と意味的関連性探索のバランスを維持する。
同時に、スパイクサリエンシ検出器はSNNのユニークな特性を利用して、サリエントな提案を正確に見つける。
我々の実験は、主流ベンチマークにおける最先端手法を一貫して上回るSpikeMbaの有効性を実証した。
関連論文リスト
- Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - Recurrence-in-Recurrence Networks for Video Deblurring [58.49075799159015]
最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。
本稿では,短距離メモリの限界に対処する再帰型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-12T11:58:13Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。