論文の概要: TinyHD: Efficient Video Saliency Prediction with Heterogeneous Decoders
using Hierarchical Maps Distillation
- arxiv url: http://arxiv.org/abs/2301.04619v1
- Date: Wed, 11 Jan 2023 18:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 17:02:09.222070
- Title: TinyHD: Efficient Video Saliency Prediction with Heterogeneous Decoders
using Hierarchical Maps Distillation
- Title(参考訳): TinyHD:階層型マップ蒸留を用いた不均一デコーダを用いた高能率ビデオサリエンシ予測
- Authors: Feiyan Hu, Simone Palazzo, Federica Proietto Salanitri, Giovanni
Bellitto, Morteza Moradi, Concetto Spampinato, Kevin McGuinness
- Abstract要約: 複数の単純ヘテロジニアスデコーダを用いた軽量モデルを提案する。
提案手法は,最先端手法よりも同等かそれ以上の精度で精度を予測できる。
- 参考スコア(独自算出の注目度): 16.04961815178485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video saliency prediction has recently attracted attention of the research
community, as it is an upstream task for several practical applications.
However, current solutions are particularly computationally demanding,
especially due to the wide usage of spatio-temporal 3D convolutions. We observe
that, while different model architectures achieve similar performance on
benchmarks, visual variations between predicted saliency maps are still
significant. Inspired by this intuition, we propose a lightweight model that
employs multiple simple heterogeneous decoders and adopts several practical
approaches to improve accuracy while keeping computational costs low, such as
hierarchical multi-map knowledge distillation, multi-output saliency
prediction, unlabeled auxiliary datasets and channel reduction with teacher
assistant supervision. Our approach achieves saliency prediction accuracy on
par or better than state-of-the-art methods on DFH1K, UCF-Sports and Hollywood2
benchmarks, while enhancing significantly the efficiency of the model. Code is
on https://github.com/feiyanhu/tinyHD
- Abstract(参考訳): ビデオサリエンシー予測は、いくつかの実用的なアプリケーションにとって上流タスクであるため、近年研究コミュニティの注目を集めている。
しかし、現在のソリューションは特に、時空間の3D畳み込みが広く使われているため、計算的に要求されている。
我々は、異なるモデルアーキテクチャがベンチマークで同様の性能を達成する一方で、予測された精度マップ間の視覚的バリエーションが依然として重要であることを観察した。
この直観に触発されて,複数の単純不均一デコーダを用いた軽量モデルを提案し,階層的マルチマップ知識蒸留,多出力塩分予測,ラベル付き補助データセット,教師助手によるチャネル削減など,計算コストを低く保ちながら精度を向上させるためのいくつかの実践的手法を提案する。
提案手法はDFH1K, UCF-Sports, Hollywood2ベンチマークにおける最先端手法よりも高い精度で精度を向上し, モデルの効率を大幅に向上させる。
コードはhttps://github.com/feiyanhu/tinyHDにある。
関連論文リスト
- Clover-2: Accurate Inference for Regressive Lightweight Speculative Decoding [8.046705062670096]
レグレッシブ・ライトウェイトな投機的復号化は、テキスト生成タスクにおける顕著な効率改善のために注目を集めている。
Clover-2は、RNNベースのドラフトモデルであり、アテンションデコーダ層モデルと同等の精度を達成するように設計されている。
論文 参考訳(メタデータ) (2024-08-01T03:43:32Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - From Single to Multiple: Leveraging Multi-level Prediction Spaces for
Video Forecasting [37.322499502542556]
マルチプレディション空間で映像予測を行うための戦略を多数検討し,その結果を融合させて性能向上を図る。
本モデルでは, 難解な歪みやぼやけたアーチファクトを著しく低減し, 長期ビデオ予測における精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2021-07-21T13:23:16Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - A Compact Deep Architecture for Real-time Saliency Prediction [42.58396452892243]
唾液度モデルは、人間の視覚系における注意機構を模倣することを目的としている。
ディープモデルは多数のパラメータを持ち、リアルタイムアプリケーションには適さない。
本稿では,実時間精度予測のためのコンパクトかつ高速なモデルを提案する。
論文 参考訳(メタデータ) (2020-08-30T17:47:16Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。