論文の概要: Transformer-based Video Saliency Prediction with High Temporal Dimension
Decoding
- arxiv url: http://arxiv.org/abs/2401.07942v1
- Date: Mon, 15 Jan 2024 20:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:01:00.892814
- Title: Transformer-based Video Saliency Prediction with High Temporal Dimension
Decoding
- Title(参考訳): 高時間次元デコードを用いた変圧器型ビデオサリエンシー予測
- Authors: Morteza Moradi, Simone Palazzo, Concetto Spampinato
- Abstract要約: 本稿では,高テンポラル次元ネットワークデコーディング(THTDNet)を用いたトランスフォーマに基づくビデオサリエンシ予測手法を提案する。
このアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
- 参考スコア(独自算出の注目度): 12.595019348741042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, finding an effective and efficient strategy for exploiting
spatial and temporal information has been a hot research topic in video
saliency prediction (VSP). With the emergence of spatio-temporal transformers,
the weakness of the prior strategies, e.g., 3D convolutional networks and
LSTM-based networks, for capturing long-range dependencies has been effectively
compensated. While VSP has drawn benefits from spatio-temporal transformers,
finding the most effective way for aggregating temporal features is still
challenging. To address this concern, we propose a transformer-based video
saliency prediction approach with high temporal dimension decoding network
(THTD-Net). This strategy accounts for the lack of complex hierarchical
interactions between features that are extracted from the transformer-based
spatio-temporal encoder: in particular, it does not require multiple decoders
and aims at gradually reducing temporal features' dimensions in the decoder.
This decoder-based architecture yields comparable performance to multi-branch
and over-complicated models on common benchmarks such as DHF1K, UCF-sports and
Hollywood-2.
- Abstract(参考訳): 近年,vsp (video saliency prediction) において,空間的および時間的情報を活用するための効率的かつ効率的な戦略が注目されている。
時空間変圧器の出現に伴い、3D畳み込みネットワークやLSTMベースのネットワークといった、長距離依存を捕捉する以前の戦略の弱点が効果的に補償されている。
VSPは時空間変換器の恩恵を受けているが、時間的特徴を集約する最も効果的な方法を見つけることは依然として困難である。
この問題に対処するため,高時間次元デコードネットワーク(THTD-Net)を用いたトランスフォーマーによる映像の精度予測手法を提案する。
この戦略は、トランスフォーマーベースの時空間エンコーダから抽出される特徴間の複雑な階層的相互作用の欠如を考慮し、特に、複数のデコーダを必要とせず、デコーダにおける時間的特徴の次元を徐々に減少させることを目的としている。
このデコーダベースのアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
関連論文リスト
- Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Long-term Wind Power Forecasting with Hierarchical Spatial-Temporal
Transformer [112.12271800369741]
風力発電は、再生可能、汚染のないその他の利点により、世界中の注目を集めている。
正確な風力発電予測(WPF)は、電力系統の運用における電力変動を効果的に低減することができる。
既存の手法は主に短期的な予測のために設計されており、効果的な時空間的特徴増強が欠如している。
論文 参考訳(メタデータ) (2023-05-30T04:03:15Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Infomaxformer: Maximum Entropy Transformer for Long Time-Series
Forecasting Problem [6.497816402045097]
Transformerアーキテクチャは、自然言語処理(NLP)やコンピュータビジョン(CV)といった多くのタスクにおいて、最先端の結果をもたらす。
しかし、この高度な能力により、二次的な時間複雑性と高いメモリ使用量により、Transformerは長い時系列予測問題に対処できなくなる。
本稿では,エンコーダ・デコーダアーキテクチャと季節差分解を併用して,より特定の季節差部分を取得する手法を提案する。
論文 参考訳(メタデータ) (2023-01-04T14:08:21Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Temporal Transformer Networks with Self-Supervision for Action
Recognition [13.00827959393591]
自己監督型時変変器ネットワーク(TTSN)について紹介する。
TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。
提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
論文 参考訳(メタデータ) (2021-12-14T12:53:53Z) - TCTN: A 3D-Temporal Convolutional Transformer Network for Spatiotemporal
Predictive Learning [1.952097552284465]
本稿では3次元時間畳み込み変換器 (TCTN) というアルゴリズムを提案する。
提案アルゴリズムは,Transformerの並列機構により,RNNベースの手法に比べて,実装や訓練が容易である。
論文 参考訳(メタデータ) (2021-12-02T10:05:01Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。