論文の概要: EDSNet: Efficient-DSNet for Video Summarization
- arxiv url: http://arxiv.org/abs/2409.14724v1
- Date: Mon, 23 Sep 2024 05:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 21:23:54.399455
- Title: EDSNet: Efficient-DSNet for Video Summarization
- Title(参考訳): EDSNet: ビデオ要約のための効率的なDSNet
- Authors: Ashish Prasad, Pranav Jeevan, Amit Sethi,
- Abstract要約: 従来の注意をフーリエ、ウェーブレット変換、Nystrオムフォーマなどの代替品に置き換えることで、効率と性能が向上することを示す。
私たちの仕事は、ビデオ要約タスクに対して、よりスケーラブルなソリューションを提供します。
- 参考スコア(独自算出の注目度): 4.093503153499691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current video summarization methods largely rely on transformer-based architectures, which, due to their quadratic complexity, require substantial computational resources. In this work, we address these inefficiencies by enhancing the Direct-to-Summarize Network (DSNet) with more resource-efficient token mixing mechanisms. We show that replacing traditional attention with alternatives like Fourier, Wavelet transforms, and Nystr\"omformer improves efficiency and performance. Furthermore, we explore various pooling strategies within the Regional Proposal Network, including ROI pooling, Fast Fourier Transform pooling, and flat pooling. Our experimental results on TVSum and SumMe datasets demonstrate that these modifications significantly reduce computational costs while maintaining competitive summarization performance. Thus, our work offers a more scalable solution for video summarization tasks.
- Abstract(参考訳): 現在のビデオ要約手法はトランスフォーマーベースのアーキテクチャに大きく依存している。
本研究では,DSNet(Direct-to-Summarize Network)を,より資源効率の高いトークン混合機構で拡張することで,これらの非効率性に対処する。
従来の注意をフーリエ、ウェーブレット変換、Nystr\omformerなどの代替品に置き換えることで、効率と性能が向上することを示す。
さらに、ROIプーリング、高速フーリエ変換プーリング、フラットプーリングなど、地域提案ネットワーク内の様々なプーリング戦略について検討する。
本研究は,TVSumおよびSumMeデータセットを用いた実験結果から,これらの修正により,競合的な要約性能を維持しつつ,計算コストを大幅に削減できることを示した。
したがって、我々の仕事はよりスケーラブルなビデオ要約タスクソリューションを提供する。
関連論文リスト
- Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - Multiscale Low-Frequency Memory Network for Improved Feature Extraction
in Convolutional Neural Networks [13.815116154370834]
本稿では,Multiscale Low-Frequency Memory (MLFM) Networkを提案する。
MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。
我々の研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
論文 参考訳(メタデータ) (2024-03-13T00:48:41Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Dynamic Network Quantization for Efficient Video Inference [60.109250720206425]
本稿では,入力に条件付けされたフレーム毎に最適な精度を選択し,効率的な映像認識を実現する動的ネットワーク量子化フレームワークを提案する。
我々は、競争性能と資源効率の両方を達成するために、標準的なバックプロパゲーションと損失を使って、両方のネットワークを効果的に訓練する。
論文 参考訳(メタデータ) (2021-08-23T20:23:57Z) - Binarized Aggregated Network with Quantization: Flexible Deep Learning
Deployment for CSI Feedback in Massive MIMO System [22.068682756598914]
アグリゲートチャネル再構築ネットワーク(ACRNet)と呼ばれる新しいネットワークは、フィードバックパフォーマンスを高めるように設計されています。
異なる資源制約を満たすために,ネットワークを柔軟に適応させる弾性フィードバック方式を提案する。
実験の結果、提案したACRNetは従来の最先端ネットワークの負荷よりも優れていた。
論文 参考訳(メタデータ) (2021-05-01T22:50:25Z) - A Reinforcement-Learning-Based Energy-Efficient Framework for Multi-Task
Video Analytics Pipeline [16.72264118199915]
ビデオ分析パイプラインは、高いデータレートと複雑な推論アルゴリズムに依存するため、エネルギー集約的である。
マルチタスクビデオ解析パイプラインのエネルギー使用を最小限に抑える適応解像度最適化フレームワークを提案する。
私たちのフレームワークは、YouTube-VISデータセットで同様の精度の全てのベースラインメソッドを大幅に上回りました。
論文 参考訳(メタデータ) (2021-04-09T15:44:06Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Deep Space-Time Video Upsampling Networks [47.62807427163614]
ビデオ超解像(VSR)とフレーム(FI)は伝統的なコンピュータビジョンの問題である。
本稿では, VSR と FI を効率よく融合して, 時空ビデオアップサンプリングを行うためのエンドツーエンドフレームワークを提案する。
その結果, 時間(x7速)とパラメータ数(30%)を基準線と比較し, 定量的, 質的にも良好な結果が得られた。
論文 参考訳(メタデータ) (2020-04-06T07:04:21Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。