論文の概要: HMS: Hierarchical Modality Selection for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2104.09760v2
- Date: Wed, 21 Apr 2021 03:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 11:17:18.314311
- Title: HMS: Hierarchical Modality Selection for Efficient Video Recognition
- Title(参考訳): HMS: 効率的なビデオ認識のための階層的モダリティ選択
- Authors: Zejia Weng, Zuxuan Wu, Hengduo Li, Yu-Gang Jiang
- Abstract要約: 本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。
HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外見や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。
fcvid と activitynet の2つの大規模ビデオベンチマークについて広範囲な実験を行い,提案手法が分類性能を向上させるために,マルチモーダル情報を効果的に探索できることを実証した。
- 参考スコア(独自算出の注目度): 69.2263841472746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos are multimodal in nature. Conventional video recognition pipelines
typically fuse multimodal features for improved performance. However, this is
not only computationally expensive but also neglects the fact that different
videos rely on different modalities for predictions. This paper introduces
Hierarchical Modality Selection (HMS), a simple yet efficient multimodal
learning framework for efficient video recognition. HMS operates on a low-cost
modality, i.e., audio clues, by default, and dynamically decides on-the-fly
whether to use computationally-expensive modalities, including appearance and
motion clues, on a per-input basis. This is achieved by the collaboration of
three LSTMs that are organized in a hierarchical manner. In particular, LSTMs
that operate on high-cost modalities contain a gating module, which takes as
inputs lower-level features and historical information to adaptively determine
whether to activate its corresponding modality; otherwise it simply reuses
historical information. We conduct extensive experiments on two large-scale
video benchmarks, FCVID and ActivityNet, and the results demonstrate the
proposed approach can effectively explore multimodal information for improved
classification performance while requiring much less computation.
- Abstract(参考訳): ビデオは本質的にマルチモーダルです。
従来のビデオ認識パイプラインは通常、パフォーマンスを改善するためにマルチモーダル機能を融合する。
しかし、これは計算的に高価であるだけでなく、異なるビデオが予測に異なるモダリティに依存しているという事実も無視している。
本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。
HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外観や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。
これは、階層的な方法で組織化された3つのLSTMの協調によって達成される。
特に、低コストのモダリティで動作するLSTMには、低レベルの特徴と履歴情報を入力として取り込んで、対応するモダリティを活性化するかを適応的に決定するゲーティングモジュールが含まれている。
本研究では,FCVIDとActivityNetの2つの大規模ビデオベンチマークについて広範な実験を行い,提案手法により,より少ない計算量で分類性能を向上できることを示す。
関連論文リスト
- Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MuLTI: Efficient Video-and-Language Understanding with Text-Guided
MultiWay-Sampler and Multiple Choice Modeling [7.737755720567113]
本稿では,高精度かつ効率的な映像・言語理解モデル MuLTI を提案する。
適応プール残差マッピングと自己アテンションモジュールに基づくテキストガイド型マルチウェイサンプラーを設計する。
また,新しい事前学習タスクであるMultiple Choice Modelingを提案する。
論文 参考訳(メタデータ) (2023-03-10T05:22:39Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition [61.51188561808917]
AdaMML と呼ばれる適応型マルチモーダル学習フレームワークを提案し、各セグメントの最適なモダリティをオンザフライで選択し、効率的なビデオ認識を実現します。
提案手法は,従来のベースラインと比較して,計算効率が35%-55%低下することを示した。
論文 参考訳(メタデータ) (2021-05-11T16:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。