論文の概要: SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2404.01174v2
- Date: Thu, 23 May 2024 10:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:50:08.855337
- Title: SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding
- Title(参考訳): SpikeMba: テンポラルビデオグラウンドのためのマルチモーダルスパイス・サイレンシー・マンバ
- Authors: Wenrui Li, Xiaopeng Hong, Ruiqin Xiong, Xiaopeng Fan,
- Abstract要約: 時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
- 参考スコア(独自算出の注目度): 50.337896542603524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal video grounding (TVG) is a critical task in video content understanding, requiring precise alignment between video content and natural language instructions. Despite significant advancements, existing methods face challenges in managing confidence bias towards salient objects and capturing long-term dependencies in video sequences. To address these issues, we introduce SpikeMba: a multi-modal spiking saliency mamba for temporal video grounding. Our approach integrates Spiking Neural Networks (SNNs) with state space models (SSMs) to leverage their unique advantages in handling different aspects of the task. Specifically, we use SNNs to develop a spiking saliency detector that generates the proposal set. The detector emits spike signals when the input signal exceeds a predefined threshold, resulting in a dynamic and binary saliency proposal set. To enhance the model's capability to retain and infer contextual information, we introduce relevant slots which learnable tensors that encode prior knowledge. These slots work with the contextual moment reasoner to maintain a balance between preserving contextual information and exploring semantic relevance dynamically. The SSMs facilitate selective information propagation, addressing the challenge of long-term dependency in video content. By combining SNNs for proposal generation and SSMs for effective contextual reasoning, SpikeMba addresses confidence bias and long-term dependencies, thereby significantly enhancing fine-grained multimodal relationship capture. Our experiments demonstrate the effectiveness of SpikeMba, which consistently outperforms state-of-the-art methods across mainstream benchmarks.
- Abstract(参考訳): 時間的ビデオグラウンドティング(TVG)は、ビデオコンテンツ理解において重要な課題であり、ビデオコンテンツと自然言語の指示を正確に調整する必要がある。
大幅な進歩にもかかわらず、既存の手法は、健全なオブジェクトに対する信頼性のバイアスを管理し、ビデオシーケンスにおける長期的な依存関係をキャプチャする上で、課題に直面している。
これらの問題に対処するために、時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシー・マンバであるSpikeMbaを紹介した。
提案手法では,SNN(Spike Neural Networks)と状態空間モデル(State Space Model, SSM)を統合して,タスクのさまざまな側面を扱う上で,そのユニークなメリットを活用する。
具体的には、SNNを用いて、提案セットを生成するスパイキングサリエンシ検出器を開発する。
検出器は、入力信号が予め定義されたしきい値を超えるとスパイク信号を出力し、ダイナミックでバイナリなサリエンシの提案セットとなる。
文脈情報を保持し,推測するモデルの能力を高めるために,先行知識を符号化する学習可能なテンソルを含む関連スロットを導入する。
これらのスロットはコンテキストモーメント推論器と連携して、コンテキスト情報の保存と意味的関連性の動的探索のバランスを維持する。
SSMは選択的な情報伝達を促進し、ビデオコンテンツへの長期依存の課題に対処する。
提案生成のためのSNNと効果的な文脈推論のためのSSMを組み合わせることで、SpikeMbaは信頼性バイアスと長期依存に対処し、きめ細かいマルチモーダル関係のキャプチャを大幅に向上する。
我々の実験は、主流ベンチマークにおける最先端手法を一貫して上回るSpikeMbaの有効性を実証した。
関連論文リスト
- The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [0.0]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。
従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。
馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-28T09:46:09Z) - Grounding-Prompter: Prompting LLM with Multimodal Information for
Temporal Sentence Grounding in Long Videos [42.32528440002539]
テンポラル・センテンス・グラウンドディング(TSG)は、与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的としている。
既存の作品は、主にショートビデオ用に設計されており、長いビデオではTSGを処理できない。
LLMにマルチモーダル情報を持たせることで、長いビデオでTSGを実行できるグラウンディング・プロンプター法を提案する。
論文 参考訳(メタデータ) (2023-12-28T16:54:21Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - Recurrence-in-Recurrence Networks for Video Deblurring [58.49075799159015]
最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。
本稿では,短距離メモリの限界に対処する再帰型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-12T11:58:13Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。
ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文 参考訳(メタデータ) (2021-09-04T13:05:37Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。