Fugu-MT 論文翻訳(概要): SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding

論文の概要: SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding

arxiv url: http://arxiv.org/abs/2404.01174v1
Date: Mon, 1 Apr 2024 15:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 22:05:48.895432
Title: SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding
Title（参考訳）: SpikeMba: テンポラルビデオグラウンドのためのマルチモーダルスパイス・サイレンシー・マンバ
Authors: Wenrui Li, Xiaopeng Hong, Xiaopeng Fan,
Abstract要約: 時間的ビデオグラウンドティングのための小説『SpikeMba: multi-modal spiking saliency mamba』を紹介する。本研究では、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合し、マルチモーダル特徴のきめ細かい関係を効果的に捉える。我々の実験は、主流ベンチマークにおける最先端手法を一貫して上回るSpikeMbaの有効性を実証した。
参考スコア（独自算出の注目度）: 39.28324184037475
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Temporal video grounding (TVG) is a critical task in video content understanding. Despite significant advancements, existing methods often limit in capturing the fine-grained relationships between multimodal inputs and the high computational costs with processing long video sequences. To address these limitations, we introduce a novel SpikeMba: multi-modal spiking saliency mamba for temporal video grounding. In our work, we integrate the Spiking Neural Networks (SNNs) and state space models (SSMs) to capture the fine-grained relationships of multimodal features effectively. Specifically, we introduce the relevant slots to enhance the model's memory capabilities, enabling a deeper contextual understanding of video sequences. The contextual moment reasoner leverages these slots to maintain a balance between contextual information preservation and semantic relevance exploration. Simultaneously, the spiking saliency detector capitalizes on the unique properties of SNNs to accurately locate salient proposals. Our experiments demonstrate the effectiveness of SpikeMba, which consistently outperforms state-of-the-art methods across mainstream benchmarks.
Abstract（参考訳）: 時間的ビデオグラウンドティング(TVG)は,映像コンテンツ理解において重要な課題である。大幅な進歩にもかかわらず、既存の手法は、長いビデオシーケンスを処理する際に、マルチモーダル入力と高い計算コストの間のきめ細かい関係を捉えるのに制限されることが多い。これらの制約に対処するために、時間的ビデオグラウンドティングのための新しいスパイクムバ、マルチモーダルスパイクサリエンシ・マンバを紹介した。本研究では、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合し、マルチモーダル特徴のきめ細かい関係を効果的に捉える。具体的には、関連スロットを導入して、モデルのメモリ能力を向上し、ビデオシーケンスのより深いコンテキスト理解を可能にする。文脈的モーメント推論器はこれらのスロットを活用し、文脈的情報保存と意味的関連性探索のバランスを維持する。同時に、スパイクサリエンシ検出器はSNNのユニークな特性を利用して、サリエントな提案を正確に見つける。我々の実験は、主流ベンチマークにおける最先端手法を一貫して上回るSpikeMbaの有効性を実証した。

関連論文リスト

Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [29.811030252357195]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
論文参考訳（メタデータ） (2025-08-06T13:03:21Z)
Infinite Video Understanding [50.78256932424239]
Infinite Video Understandingをブルースキー研究の目的とするフレーミングは、マルチメディアにとって重要な北の星となると我々は主張する。我々は、この変革能力を達成するための主要な課題と研究の方向性を概説する。
論文参考訳（メタデータ） (2025-07-11T23:07:04Z)
Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文参考訳（メタデータ） (2025-07-07T06:51:40Z)
Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding [18.027290155746112]
時間探索(Temporal Search)は、MLLMが時間領域を探索し、長いビデオの理解を反復的に改善する訓練不要のフレームワークである。モデルの生成信頼度は、時間間隔によって異なるため、予測精度と高い相関関係がある。よりきめ細かな時間間隔に注意を移し、長いビデオの理解を深めることで、モデルの焦点を洗練させる。
論文参考訳（メタデータ） (2025-06-28T15:24:05Z)
VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
VideoExpert: Augmented LLM for Temporal-Sensitive Video Understanding [48.745013691038295]
VideoExpertは、複数の時間に敏感なビデオタスクに適した汎用MLLMである。時間の専門家は、時系列をモデル化し、時間的接地を行う責任を負う。空間専門家は、コンテンツの詳細分析と以下の指示に焦点を当てている。コンテンツ生成から時間的グラウンドをオフロードすることで、VideoExpertはタイムスタンプ予測におけるテキストパターンのバイアスを防ぐ。
論文参考訳（メタデータ） (2025-04-10T07:33:39Z)
Moment Quantization for Video Temporal Grounding [29.081100914208974]
我々は、新しいモーメント量子化に基づくビデオ時間グラウンド法(MQVTG)を提案する。 MQVTGは入力ビデオを様々な離散ベクトルに量子化し、関連するモーメントと無関係なモーメントの識別を強化する。本手法は,関係する特徴を効果的にグループ化し,無関係な特徴を分離し,差別の強化を目標とする。
論文参考訳（メタデータ） (2025-04-03T05:21:14Z)
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。 GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T08:33:36Z)
On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文参考訳（メタデータ） (2024-11-20T00:47:17Z)
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文参考訳（メタデータ） (2024-10-04T10:04:37Z)
HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics [32.117677036812836]
HERMESは、エピソードメモリ蓄積をシミュレートしてアクションシーケンスをキャプチャするモデルである。エピソード・コムプレッサーは、ミクロからセミマクロレベルまでの重要な表現を効率的に集約する。 Semantic ReTRieverは、関連するマクロレベルの情報を保持しながら、特徴次元を劇的に削減する。
論文参考訳（メタデータ） (2024-08-30T17:52:55Z)
The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文参考訳（メタデータ） (2024-06-26T06:59:09Z)
Grounding-Prompter: Prompting LLM with Multimodal Information for Temporal Sentence Grounding in Long Videos [42.32528440002539]
テンポラル・センテンス・グラウンドディング(TSG)は、与えられた自然言語クエリに基づいてビデオからモーメントをローカライズすることを目的としている。既存の作品は、主にショートビデオ用に設計されており、長いビデオではTSGを処理できない。 LLMにマルチモーダル情報を持たせることで、長いビデオでTSGを実行できるグラウンディング・プロンプター法を提案する。
論文参考訳（メタデータ） (2023-12-28T16:54:21Z)
Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。 TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-14T12:30:58Z)
You Need to Read Again: Multi-granularity Perception Network for Moment Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文参考訳（メタデータ） (2022-05-25T16:15:46Z)
Spatiotemporal Inconsistency Learning for DeepFake Video Detection [51.747219106855624]
本稿では,水平方向と垂直方向の両方で隣接するフレーム間の時間差を利用して,TIMにおける新しい時間的モデリングパラダイムを提案する。 ISMは、SIMからの空間情報とTIMからの時間情報とを同時に利用し、より包括的な時空間表現を確立する。
論文参考訳（メタデータ） (2021-09-04T13:05:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。