論文の概要: Spiking Variational Graph Representation Inference for Video Summarization
- arxiv url: http://arxiv.org/abs/2508.15389v1
- Date: Thu, 21 Aug 2025 09:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.262805
- Title: Spiking Variational Graph Representation Inference for Video Summarization
- Title(参考訳): 映像要約のためのスパイキング変動グラフ表現推論
- Authors: Wenrui Li, Wei Han, Liang-Jian Deng, Ruiqin Xiong, Xiaopeng Fan,
- Abstract要約: 本稿では,情報密度を高め,計算複雑性を低減するスパイキング変動グラフ(SpiVG)ネットワークを提案する。
まず、SNNのイベント駆動機構を利用して、スパイキングニューラルネットワーク(SNN)に基づく抽出器を設計し、自律的に学習する。
マルチチャネル機能融合時に発生する不確実性とノイズに対処するための変分推論再構成モジュールを提案する。
- 参考スコア(独自算出の注目度): 37.324654104567436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of short video content, efficient video summarization techniques for extracting key information have become crucial. However, existing methods struggle to capture the global temporal dependencies and maintain the semantic coherence of video content. Additionally, these methods are also influenced by noise during multi-channel feature fusion. We propose a Spiking Variational Graph (SpiVG) Network, which enhances information density and reduces computational complexity. First, we design a keyframe extractor based on Spiking Neural Networks (SNN), leveraging the event-driven computation mechanism of SNNs to learn keyframe features autonomously. To enable fine-grained and adaptable reasoning across video frames, we introduce a Dynamic Aggregation Graph Reasoner, which decouples contextual object consistency from semantic perspective coherence. We present a Variational Inference Reconstruction Module to address uncertainty and noise arising during multi-channel feature fusion. In this module, we employ Evidence Lower Bound Optimization (ELBO) to capture the latent structure of multi-channel feature distributions, using posterior distribution regularization to reduce overfitting. Experimental results show that SpiVG surpasses existing methods across multiple datasets such as SumMe, TVSum, VideoXum, and QFVS. Our codes and pre-trained models are available at https://github.com/liwrui/SpiVG.
- Abstract(参考訳): ショートビデオコンテンツの増加に伴い、キー情報を抽出する効率的な映像要約技術が重要になっている。
しかし、既存の手法では、グローバルな時間的依存関係を捉え、ビデオコンテンツのセマンティックコヒーレンスを維持するのに苦労している。
さらに、これらの手法はマルチチャネル機能融合時のノイズにも影響される。
本稿では,情報密度を高め,計算複雑性を低減するスパイキング変動グラフ(SpiVG)ネットワークを提案する。
まず、SNNのイベント駆動型計算機構を利用して、スパイキングニューラルネットワーク(SNN)に基づくキーフレーム抽出器を設計し、キーフレームの特徴を自律的に学習する。
ビデオフレーム間の微粒化および適応可能な推論を可能にするために,意味的視点のコヒーレンスからコンテキストオブジェクトの一貫性を分離する動的アグリゲーショングラフ推論器を導入する。
マルチチャネル機能融合時に発生する不確実性とノイズに対処するための変分推論再構成モジュールを提案する。
本モジュールでは,Evidence Low Bound Optimization (ELBO) を用いてマルチチャネル特徴分布の潜在構造を抽出し,後続分布正規化を用いてオーバーフィッティングを低減する。
実験結果から、SpirVGはSumMe、TVSum、VideoXum、QFVSといった複数のデータセットにまたがる既存のメソッドを上回ることがわかった。
私たちのコードと事前トレーニングされたモデルはhttps://github.com/liwrui/SpiVG.comで公開されています。
関連論文リスト
- MSNeRV: Neural Video Representation with Multi-Scale Feature Fusion [27.621656985302973]
Inlicit Neural representations (INRs) はビデオ圧縮の有望なアプローチとして登場した。
既存のINRベースの手法は、ディテール集約的で高速に変化するビデオコンテンツを効果的に表現するのに苦労する。
ニューラルビデオ表現のためのマルチスケール機能融合フレームワークMSNeRVを提案する。
論文 参考訳(メタデータ) (2025-06-18T08:57:12Z) - DiffVQA: Video Quality Assessment Using Diffusion Feature Extractor [22.35724335601674]
映像品質評価(VQA)は、知覚的歪みと人間の嗜好に基づいて映像品質を評価することを目的としている。
我々は、広範囲なデータセットで事前訓練された拡散モデルの堅牢な一般化機能を利用する新しいVQAフレームワークDiffVQAを紹介する。
論文 参考訳(メタデータ) (2025-05-06T07:42:24Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Bayesian Nonparametric Submodular Video Partition for Robust Anomaly
Detection [9.145168943972067]
MIL(Multiple-instance Learning)は、ビデオ異常検出問題に対処するための効果的な方法である。
我々は,MILモデルトレーニングを大幅に改善するために,新しいベイズ非パラメトリックサブモジュールビデオ分割(BN-SVP)を提案する。
我々の理論解析は,提案アルゴリズムの性能保証を確実にする。
論文 参考訳(メタデータ) (2022-03-24T04:00:49Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z) - Disentangling Multiple Features in Video Sequences using Gaussian
Processes in Variational Autoencoders [6.461473289206789]
ビデオシーケンスにおける非教師なし表現学習のための潜在空間をモデル化するためにガウス過程(GP)を用いる変分オートエンコーダであるMGP-VAEを導入する。
分数的ブラウン運動 (fBM) とブラウンブリッジ (BB) を用いて, 各独立チャネルにおけるフレーム間相関構造を強制し, この構造の変化によって, データの変動の異なる要因を捉えることができることを示す。
論文 参考訳(メタデータ) (2020-01-08T08:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。