論文の概要: Transformer-based Video Saliency Prediction with High Temporal Dimension
Decoding
- arxiv url: http://arxiv.org/abs/2401.07942v1
- Date: Mon, 15 Jan 2024 20:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:01:00.892814
- Title: Transformer-based Video Saliency Prediction with High Temporal Dimension
Decoding
- Title(参考訳): 高時間次元デコードを用いた変圧器型ビデオサリエンシー予測
- Authors: Morteza Moradi, Simone Palazzo, Concetto Spampinato
- Abstract要約: 本稿では,高テンポラル次元ネットワークデコーディング(THTDNet)を用いたトランスフォーマに基づくビデオサリエンシ予測手法を提案する。
このアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
- 参考スコア(独自算出の注目度): 12.595019348741042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, finding an effective and efficient strategy for exploiting
spatial and temporal information has been a hot research topic in video
saliency prediction (VSP). With the emergence of spatio-temporal transformers,
the weakness of the prior strategies, e.g., 3D convolutional networks and
LSTM-based networks, for capturing long-range dependencies has been effectively
compensated. While VSP has drawn benefits from spatio-temporal transformers,
finding the most effective way for aggregating temporal features is still
challenging. To address this concern, we propose a transformer-based video
saliency prediction approach with high temporal dimension decoding network
(THTD-Net). This strategy accounts for the lack of complex hierarchical
interactions between features that are extracted from the transformer-based
spatio-temporal encoder: in particular, it does not require multiple decoders
and aims at gradually reducing temporal features' dimensions in the decoder.
This decoder-based architecture yields comparable performance to multi-branch
and over-complicated models on common benchmarks such as DHF1K, UCF-sports and
Hollywood-2.
- Abstract(参考訳): 近年,vsp (video saliency prediction) において,空間的および時間的情報を活用するための効率的かつ効率的な戦略が注目されている。
時空間変圧器の出現に伴い、3D畳み込みネットワークやLSTMベースのネットワークといった、長距離依存を捕捉する以前の戦略の弱点が効果的に補償されている。
VSPは時空間変換器の恩恵を受けているが、時間的特徴を集約する最も効果的な方法を見つけることは依然として困難である。
この問題に対処するため,高時間次元デコードネットワーク(THTD-Net)を用いたトランスフォーマーによる映像の精度予測手法を提案する。
この戦略は、トランスフォーマーベースの時空間エンコーダから抽出される特徴間の複雑な階層的相互作用の欠如を考慮し、特に、複数のデコーダを必要とせず、デコーダにおける時間的特徴の次元を徐々に減少させることを目的としている。
このデコーダベースのアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
関連論文リスト
- Spiking Transformer with Spatial-Temporal Attention [26.7175155847563]
SpikeベースのTransformerは、従来のニューラルネットワーク(ANN)ベースのTransformerに代わる、魅力的でエネルギー効率のよい代替手段を提供する。
本研究では,空間的・時間的情報を自己認識機構に効率よく統合する,シンプルかつ簡単なアーキテクチャである空間時間注意型スパイキングトランスフォーマーを提案する。
アーキテクチャのオーバーホールなしに既存のスパイクベースのトランスにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-29T20:29:39Z) - Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Temporal Transformer Networks with Self-Supervision for Action
Recognition [13.00827959393591]
自己監督型時変変器ネットワーク(TTSN)について紹介する。
TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。
提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
論文 参考訳(メタデータ) (2021-12-14T12:53:53Z) - TCTN: A 3D-Temporal Convolutional Transformer Network for Spatiotemporal
Predictive Learning [1.952097552284465]
本稿では3次元時間畳み込み変換器 (TCTN) というアルゴリズムを提案する。
提案アルゴリズムは,Transformerの並列機構により,RNNベースの手法に比べて,実装や訓練が容易である。
論文 参考訳(メタデータ) (2021-12-02T10:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。