論文の概要: Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action Cues
- arxiv url: http://arxiv.org/abs/2502.00397v1
- Date: Sat, 01 Feb 2025 11:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:46.707240
- Title: Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action Cues
- Title(参考訳): 効率的なデコーダと時空間行動キューによる最小限の映像残差予測
- Authors: Rohit Girmaji, Siddharth Jain, Bhav Beri, Sarthak Bansal, Vineet Gandhi,
- Abstract要約: 本稿では,ViNetアーキテクチャをベースとした36MBモデルであるViNet-Sを紹介し,性能を損なうことなくモデルサイズやパラメータを大幅に削減する軽量デコーダを特徴とする。
本研究では,ViNet-SとViNet-Aのアンサンブルを平均化することにより,視覚のみと6つのオーディオ視覚的サリエンシデータセットに対して,1000fps以上を達成できることを示す。
- 参考スコア(独自算出の注目度): 5.497663232622965
- License:
- Abstract: This paper introduces ViNet-S, a 36MB model based on the ViNet architecture with a U-Net design, featuring a lightweight decoder that significantly reduces model size and parameters without compromising performance. Additionally, ViNet-A (148MB) incorporates spatio-temporal action localization (STAL) features, differing from traditional video saliency models that use action classification backbones. Our studies show that an ensemble of ViNet-S and ViNet-A, by averaging predicted saliency maps, achieves state-of-the-art performance on three visual-only and six audio-visual saliency datasets, outperforming transformer-based models in both parameter efficiency and real-time performance, with ViNet-S reaching over 1000fps.
- Abstract(参考訳): 本稿では,ViNetアーキテクチャをベースとした36MBモデルであるViNet-Sを紹介し,性能を損なうことなくモデルサイズやパラメータを大幅に削減する軽量デコーダを特徴とする。
さらに、ViNet-A (148MB)は、アクション分類バックボーンを使用する従来のビデオサリエンシモデルとは異なる、時空間のアクションローカライゼーション(STAL)機能を組み込んでいる。
本研究では,ViNet-S と ViNet-A のアンサンブルを平均化することにより,VNet-S が1000fps を超えるパラメータ効率とリアルタイム性能の両方でトランスフォーマーベースモデルより優れた3つの視覚のみおよび6つのオーディオ視覚的サリエンシデータセット上で,最先端のパフォーマンスを実現することを示す。
関連論文リスト
- 3D-RCNet: Learning from Transformer to Build a 3D Relational ConvNet for Hyperspectral Image Classification [8.124761584272132]
本稿では,ConvNet と ViT の両長所を継承する 3D-RCNet という3Dリレーショナル ConvNet を提案する。
提案した3D-RCNetは、ViTの柔軟性を享受しながら、ConvNetの高い計算効率を維持している。
3つの代表的なベンチマークHSIデータセットに対する実証的な評価は、提案モデルが以前のConvNetおよびViTベースのHSIアプローチより優れていることを示している。
論文 参考訳(メタデータ) (2024-08-25T05:41:47Z) - TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down
Fusion [21.278294846228935]
Top-Down-Fusion Net (TDFNet) は、音声・視覚音声分離のための最先端(SOTA)モデルである。
TDFNetは、以前のSOTAメソッドであるCTCNetと比較して、すべてのパフォーマンス指標で最大10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-01-25T13:47:22Z) - ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights [61.36309876889977]
ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
論文 参考訳(メタデータ) (2023-08-20T07:26:51Z) - Pruning Compact ConvNets for Efficient Inference [29.946386610434807]
NAS(Neural Architecture Search)によってトレーニングされたネットワークを最適化するために,モデルプルーニングアプローチが利用できることを示す。
得られたプルーンドモデルのファミリーは、同じ計算レベルで既存のFBNetV3モデルよりも一貫して優れた性能を得ることができる。
一般化性能の向上に加えて、限られた計算資源が利用できる場合、FBNetV3モデルはフルスケールのNASの実行に関わるGPU時間のごく一部しか発生しないことを示した。
論文 参考訳(メタデータ) (2023-01-11T14:51:19Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - SVT-Net: A Super Light-Weight Network for Large Scale Place Recognition
using Sparse Voxel Transformers [12.89239757110425]
大規模位置認識のための超軽量ネットワークであるモデルSVTNetを提案します。
SVT-Netは超軽量モデルサイズ(0.9M)で精度とスピードの両面で最先端の性能を実現できます。
ASVT-NetとCSVT-Netという2つの簡易版も導入され、最先端のパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2021-05-01T02:23:49Z) - Real-time Denoising and Dereverberation with Tiny Recurrent U-Net [12.533488149023025]
我々は,現在の最先端モデルの性能と一致する軽量オンライン推論モデルであるTiny Recurrent U-Net(TRU-Net)を提案する。
TRU-Netの量子化バージョンのサイズは362キロバイトであり、エッジデバイスにデプロイできるほど小さい。
客観評価と主観評価の両方の結果から,我々のモデルが現在の最先端モデルと競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2021-02-05T14:46:41Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。