論文の概要: SRVP: Strong Recollection Video Prediction Model Using Attention-Based Spatiotemporal Correlation Fusion
- arxiv url: http://arxiv.org/abs/2504.08012v2
- Date: Wed, 16 Apr 2025 01:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 11:15:16.667221
- Title: SRVP: Strong Recollection Video Prediction Model Using Attention-Based Spatiotemporal Correlation Fusion
- Title(参考訳): SRVP:アテンションベース時空間相関融合を用いた強反射映像予測モデル
- Authors: Yuseon Kim, Kyongseok Park,
- Abstract要約: VP(VP)モデルは標準注意(SA)と強化注意(RFA)を統合する
3つのベンチマークデータセットの実験により、SRVはRNNベースのモデルにおける画質劣化を緩和することを示した。
- 参考スコア(独自算出の注目度): 0.18416014644193066
- License:
- Abstract: Video prediction (VP) generates future frames by leveraging spatial representations and temporal context from past frames. Traditional recurrent neural network (RNN)-based models enhance memory cell structures to capture spatiotemporal states over extended durations but suffer from gradual loss of object appearance details. To address this issue, we propose the strong recollection VP (SRVP) model, which integrates standard attention (SA) and reinforced feature attention (RFA) modules. Both modules employ scaled dot-product attention to extract temporal context and spatial correlations, which are then fused to enhance spatiotemporal representations. Experiments on three benchmark datasets demonstrate that SRVP mitigates image quality degradation in RNN-based models while achieving predictive performance comparable to RNN-free architectures.
- Abstract(参考訳): ビデオ予測(VP)は、過去のフレームから空間的表現と時間的コンテキストを活用することによって、将来のフレームを生成する。
従来のリカレントニューラルネットワーク(RNN)ベースのモデルでは、長期にわたって時空間状態をキャプチャするメモリセル構造が強化されるが、オブジェクトの外観詳細が徐々に失われる。
この問題に対処するために,標準注意 (SA) と強化特徴注意 (RFA) モジュールを統合した強反射型VP (SRVP) モデルを提案する。
どちらのモジュールも、時間的文脈と空間的相関を抽出し、時空間表現を強化するために融合する。
3つのベンチマークデータセットの実験により、SRVPはRNNベースモデルの画質劣化を軽減し、RNNフリーアーキテクチャに匹敵する予測性能を達成した。
関連論文リスト
- RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。
次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。
総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-07-13T15:27:39Z) - Enhancing Adaptive History Reserving by Spiking Convolutional Block
Attention Module in Recurrent Neural Networks [21.509659756334802]
スパイキングニューラルネットワーク(SNN)は、時系列における時間的パターンを処理するための1種類の効率的なモデルである。
本稿では、先進的なスパイキング・コンボリューション・アテンション・モジュール(SCBAM)コンポーネントを組み込んだ繰り返しスパイキング・ニューラルネットワーク(RSNN)モデルを開発する。
SCBAMを通して空間的・時間的チャネルの履歴情報を適応的に呼び出すことで、効率的なメモリ呼び出し履歴と冗長性排除の利点をもたらす。
論文 参考訳(メタデータ) (2024-01-08T08:05:34Z) - Attention-based Spatial-Temporal Graph Convolutional Recurrent Networks
for Traffic Forecasting [12.568905377581647]
交通予測は交通科学と人工知能における最も基本的な問題の一つである。
既存の手法では、長期的相関と短期的相関を同時にモデル化することはできない。
本稿では,GCRN(Graph Convolutional Recurrent Module)とグローバルアテンションモジュールからなる新しい時空間ニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-25T03:37:00Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - STDAN: Deformable Attention Network for Space-Time Video
Super-Resolution [39.18399652834573]
本稿では,STDAN と呼ばれる,STVSR のための変形可能なアテンションネットワークを提案する。
まず、より近隣の入力フレームから豊富なコンテンツを得ることができるLSTFI(long-short term feature)モジュールを考案する。
第2に,空間的・時間的文脈を適応的に捕捉・集約する時空間変形可能特徴集合(STDFA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-14T03:40:35Z) - Recurrence-in-Recurrence Networks for Video Deblurring [58.49075799159015]
最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。
本稿では,短距離メモリの限界に対処する再帰型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-12T11:58:13Z) - Recur, Attend or Convolve? Frame Dependency Modeling Matters for
Cross-Domain Robustness in Action Recognition [0.5448283690603357]
従来,2次元畳み込みニューラルネットワーク(CNN)は,コンピュータビジョンタスクの形状よりもテクスチャに偏っている傾向があった。
これは、大きなビデオモデルが時間の経過とともに関連した形状を追跡するのではなく、急激な相関関係を学習しているという疑いを提起する。
本研究では, フレーム依存性のモデリングによって, 連続的, 注意的, 畳み込み的ビデオモデルに対するドメイン間ロバスト性について検討した。
論文 参考訳(メタデータ) (2021-12-22T19:11:53Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution [4.9136996406481135]
ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
論文 参考訳(メタデータ) (2021-06-14T06:36:13Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。