論文の概要: Temporal Bilinear Encoding Network of Audio-Visual Features at Low
Sampling Rates
- arxiv url: http://arxiv.org/abs/2012.10283v1
- Date: Fri, 18 Dec 2020 14:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:22:16.833230
- Title: Temporal Bilinear Encoding Network of Audio-Visual Features at Low
Sampling Rates
- Title(参考訳): 低サンプリング率での視聴覚特徴量の時間的2線形符号化ネットワーク
- Authors: Feiyan Hu, Eva Mohedano, Noel O'Connor and Kevin McGuinness
- Abstract要約: 本稿では,映像分類における視聴覚情報の利用について,毎秒1フレームのサンプリングレートで検討する。
音声情報と視覚情報の両方を符号化するためのTBEN(temporal Bilinear Networks)を提案する。
- 参考スコア(独自算出の注目度): 7.1273332508471725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current deep learning based video classification architectures are typically
trained end-to-end on large volumes of data and require extensive computational
resources. This paper aims to exploit audio-visual information in video
classification with a 1 frame per second sampling rate. We propose Temporal
Bilinear Encoding Networks (TBEN) for encoding both audio and visual long range
temporal information using bilinear pooling and demonstrate bilinear pooling is
better than average pooling on the temporal dimension for videos with low
sampling rate. We also embed the label hierarchy in TBEN to further improve the
robustness of the classifier. Experiments on the FGA240 fine-grained
classification dataset using TBEN achieve a new state-of-the-art
(hit@1=47.95%). We also exploit the possibility of incorporating TBEN with
multiple decoupled modalities like visual semantic and motion features:
experiments on UCF101 sampled at 1 FPS achieve close to state-of-the-art
accuracy (hit@1=91.03%) while requiring significantly less computational
resources than competing approaches for both training and prediction.
- Abstract(参考訳): 現在のディープラーニングベースのビデオ分類アーキテクチャは、通常、大量のデータに対してエンドツーエンドで訓練され、広範な計算資源を必要とする。
本稿では,毎秒1フレームのサンプリングレートで映像分類における視覚情報を活用することを目的とする。
本稿では,バイリニアプールを用いた音声と視覚の長距離時間情報の両方を符号化するテンポラルバイリニア符号化ネットワーク(TBEN)を提案し,サンプリングレートの低いビデオの時間次元における平均プールよりもバイリニアプールの方が優れていることを示す。
また、TBENにラベル階層を組み込んで分類器の堅牢性をさらに向上させる。
TBENを用いたFGA240きめ細かい分類データセットの実験は、新しい最先端(hit@1=47.95%)を実現する。
1 FPSでサンプリングされたUCF101実験は、最先端の精度(hit@1=91.03%)に近づき、トレーニングと予測の両方において競合するアプローチよりも計算資源をはるかに少なくする。
関連論文リスト
- Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Capturing Temporal Information in a Single Frame: Channel Sampling
Strategies for Action Recognition [19.220288614585147]
計算コストを増大させることなく、2次元ネットワークにおける映像分類のための時間情報をキャプチャする問題に対処する。
そこで我々は,短期的なフレーム・ツー・フレームの変化を捉えるために,入力ビデオのチャネルを並べ替える新しいサンプリング手法を提案する。
我々のサンプリング戦略は、スクラッチからのトレーニングを必要とせず、トレーニングとテストの計算コストを増大させません。
論文 参考訳(メタデータ) (2022-01-25T15:24:37Z) - Dual-view Snapshot Compressive Imaging via Optical Flow Aided Recurrent
Neural Network [14.796204921975733]
デュアルビュースナップショット圧縮イメージング(SCI)は、2つの視野(FoV)からのビデオを1つのスナップショットでキャプチャすることを目的としている。
既存のモデルベースの復号アルゴリズムでは個々のシーンを再構築することは困難である。
本稿では,2重ビデオSCIシステムのための光フロー支援型リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-11T14:24:44Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Reinforcement Learning with Latent Flow [78.74671595139613]
Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。
本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。
我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
論文 参考訳(メタデータ) (2021-01-06T03:50:50Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。