論文の概要: AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2105.05165v1
- Date: Tue, 11 May 2021 16:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:09:29.779909
- Title: AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition
- Title(参考訳): AdaMML:効率的なビデオ認識のための適応型マルチモーダル学習
- Authors: Rameswar Panda, Chun-Fu (Richard) Chen, Quanfu Fan, Ximeng Sun, Kate
Saenko, Aude Oliva, Rogerio Feris
- Abstract要約: AdaMML と呼ばれる適応型マルチモーダル学習フレームワークを提案し、各セグメントの最適なモダリティをオンザフライで選択し、効率的なビデオ認識を実現します。
提案手法は,従来のベースラインと比較して,計算効率が35%-55%低下することを示した。
- 参考スコア(独自算出の注目度): 63.08766372248624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal learning, which focuses on utilizing various modalities to
improve the performance of a model, is widely used in video recognition. While
traditional multi-modal learning offers excellent recognition results, its
computational expense limits its impact for many real-world applications. In
this paper, we propose an adaptive multi-modal learning framework, called
AdaMML, that selects on-the-fly the optimal modalities for each segment
conditioned on the input for efficient video recognition. Specifically, given a
video segment, a multi-modal policy network is used to decide what modalities
should be used for processing by the recognition model, with the goal of
improving both accuracy and efficiency. We efficiently train the policy network
jointly with the recognition model using standard back-propagation. Extensive
experiments on four challenging diverse datasets demonstrate that our proposed
adaptive approach yields 35%-55% reduction in computation when compared to the
traditional baseline that simply uses all the modalities irrespective of the
input, while also achieving consistent improvements in accuracy over the
state-of-the-art methods.
- Abstract(参考訳): モデルの性能向上に様々なモダリティを活用するマルチモーダル学習は,ビデオ認識において広く利用されている。
従来のマルチモーダル学習は優れた認識結果を提供するが、計算コストは現実世界の多くのアプリケーションに対する影響を制限する。
本稿では,入力に条件づけされたセグメント毎に最適なモダリティをオンザフライで選択し,効率的な映像認識を実現する適応型マルチモーダル学習フレームワークadammlを提案する。
具体的には、ビデオセグメントが与えられると、マルチモーダルポリシネットワークを使用して、認識モデルによる処理に使用するモダリティを判断し、精度と効率の両立を目標とする。
標準バックプロパゲーションを用いた認識モデルと協調してポリシーネットワークを効率的に訓練する。
4つの挑戦的な多種多様なデータセットに対する広範囲な実験により、提案手法は、入力によらずすべてのモダリティを単純に使用する従来のベースラインと比較して35%-55%の計算削減を実現し、また最先端の手法よりも精度が一貫した改善を実現した。
関連論文リスト
- MMP: Towards Robust Multi-Modal Learning with Masked Modality Projection [10.909746391230206]
マルチモーダル学習は、下流タスクの性能を高めるために、複数の入力源からのデータを組み合わせることを目指している。
欠落したモダリティを処理できる既存の方法は、各入力モダリティの組み合わせに対するカスタムトレーニングまたは適応ステップを含む。
そこで我々は,MMP (Masked Modality Projection) を提案する。
論文 参考訳(メタデータ) (2024-10-03T21:41:12Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - VideoAdviser: Video Knowledge Distillation for Multimodal Transfer
Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。
本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。
本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文 参考訳(メタデータ) (2023-09-27T08:44:04Z) - Dynamic Network Quantization for Efficient Video Inference [60.109250720206425]
本稿では,入力に条件付けされたフレーム毎に最適な精度を選択し,効率的な映像認識を実現する動的ネットワーク量子化フレームワークを提案する。
我々は、競争性能と資源効率の両方を達成するために、標準的なバックプロパゲーションと損失を使って、両方のネットワークを効果的に訓練する。
論文 参考訳(メタデータ) (2021-08-23T20:23:57Z) - HMS: Hierarchical Modality Selection for Efficient Video Recognition [69.2263841472746]
本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。
HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外見や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。
fcvid と activitynet の2つの大規模ビデオベンチマークについて広範囲な実験を行い,提案手法が分類性能を向上させるために,マルチモーダル情報を効果的に探索できることを実証した。
論文 参考訳(メタデータ) (2021-04-20T04:47:04Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。