論文の概要: MILA: Multi-Task Learning from Videos via Efficient Inter-Frame
Attention
- arxiv url: http://arxiv.org/abs/2002.07362v3
- Date: Sun, 10 Oct 2021 23:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 20:08:17.480943
- Title: MILA: Multi-Task Learning from Videos via Efficient Inter-Frame
Attention
- Title(参考訳): MILA:効率的なフレーム間アテンションによるビデオからのマルチタスク学習
- Authors: Donghyun Kim, Tian Lan, Chuhang Zou, Ning Xu, Bryan A. Plummer, Stan
Sclaroff, Jayan Eledath, Gerard Medioni
- Abstract要約: 我々は、フレーム間局所的効率的な注意(MILA)によるビデオからのマルチタスク学習のための新しいアプローチを提案する。
提案手法は,フレーム間のタスク固有の注意を学習可能な,新しいフレーム間注意モジュールを含む。
また,ネットワークの遅さと高速さを両立させる効果的な対角学習戦略を提案する。
- 参考スコア(独自算出の注目度): 39.45800143159756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work in multi-task learning has mainly focused on predictions on a
single image. In this work, we present a new approach for multi-task learning
from videos via efficient inter-frame local attention (MILA). Our approach
contains a novel inter-frame attention module which allows learning of
task-specific attention across frames. We embed the attention module in a
``slow-fast'' architecture, where the slower network runs on sparsely sampled
keyframes and the light-weight shallow network runs on non-keyframes at a high
frame rate. We also propose an effective adversarial learning strategy to
encourage the slow and fast network to learn similar features. Our approach
ensures low-latency multi-task learning while maintaining high quality
predictions. Experiments show competitive accuracy compared to state-of-the-art
on two multi-task learning benchmarks while reducing the number of floating
point operations (FLOPs) by up to 70\%. In addition, our attention based
feature propagation method (ILA) outperforms prior work in terms of task
accuracy while also reducing up to 90\% of FLOPs.
- Abstract(参考訳): マルチタスク学習の先行研究は、主に1つのイメージでの予測に焦点を当てている。
本研究では,効率的なフレーム間局所的注意(MILA)を用いたマルチタスク学習手法を提案する。
提案手法は,フレーム間のタスク固有の注意を学習可能な,新しいフレーム間注意モジュールを含む。
注意モジュールを ‘slow-fast' アーキテクチャに埋め込むと、遅いネットワークがスパースサンプリングされたキーフレーム上で動き、軽量の浅いネットワークが非キーフレーム上で高いフレームレートで動きます。
また,低速で高速なネットワークに類似の機能学習を促すための,効果的な逆学習戦略を提案する。
高品質な予測を維持しつつ,低レイテンシなマルチタスク学習を実現する。
実験では、2つのマルチタスク学習ベンチマークの最先端と比較し、浮動小数点演算(FLOP)の回数を最大70 %削減した。
さらに,注視に基づく特徴伝搬法 (ILA) はタスクの精度において先行作業よりも優れており,同時に最大90%のFLOPを削減できる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Cross-Task Affinity Learning for Multitask Dense Scene Predictions [5.939164722752263]
マルチタスク学習(MTL)は,複数のタスクを同時に予測する能力で注目されている。
マルチタスクネットワークにおけるタスク改善を強化する軽量フレームワークであるクロスタスク親和性学習(CTAL)モジュールを紹介する。
以上の結果から,CNNとトランスフォーマーの両バックボーンに対して,シングルタスク学習よりもはるかに少ないパラメータを用いて,最先端のMTL性能を実証した。
論文 参考訳(メタデータ) (2024-01-20T05:31:47Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - MetaMorphosis: Task-oriented Privacy Cognizant Feature Generation for
Multi-task Learning [6.056197449765416]
本稿ではMetaMorphosisと呼ばれる,深層学習に基づくプライバシー認識機能生成プロセスを提案する。
本稿では,MetaMorphosisが,プライバシー要件を保証し,近年の敵対的学習や普遍的特徴生成方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-13T01:59:07Z) - Medusa: Universal Feature Learning via Attentional Multitasking [65.94499390875046]
マルチタスク学習への最近のアプローチは、デコーダレベルでタスク間の接続をモデル化することに焦点を当てている。
MTLは普遍的特徴学習(Universal Feature Learning, UFL)への一歩であり, 新たなタスクに適用可能な汎用的な特徴を, 再学習することなく学習することができる。
UFLにおけるMedusaの有効性 (+13.18%改善) は, MTL性能を維持しつつ, 従来のアプローチよりも25%効率がよいことを示す。
論文 参考訳(メタデータ) (2022-04-12T10:52:28Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Collaborative Distillation in the Parameter and Spectrum Domains for
Video Action Recognition [79.60708268515293]
本稿では,行動認識のための小型かつ効率的なネットワークの訓練方法について検討する。
周波数領域における2つの蒸留戦略,すなわち特徴スペクトルとパラメータ分布蒸留を提案する。
提案手法は,同じバックボーンを持つ最先端の手法よりも高い性能を実現することができる。
論文 参考訳(メタデータ) (2020-09-15T07:29:57Z) - Video Moment Retrieval via Natural Language Queries [7.611718124254329]
本稿では,映像モーメント検索(VMR)のための新しい手法を提案する。
私たちのモデルはシンプルなアーキテクチャで、維持しながらより高速なトレーニングと推論を可能にします。
論文 参考訳(メタデータ) (2020-09-04T22:06:34Z) - Attentive Feature Reuse for Multi Task Meta learning [17.8055398673228]
複数のタスクの同時学習のための新しいアルゴリズムを開発した。
本稿では,タスク毎に動的にネットワークを専門化するためのアテンション機構を提案する。
提案手法は,従来は目に見えなかった新しい環境における性能を向上させる。
論文 参考訳(メタデータ) (2020-06-12T19:33:11Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。