論文の概要: Multimodal Distillation for Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2307.07483v2
- Date: Tue, 18 Jul 2023 09:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 11:29:42.583014
- Title: Multimodal Distillation for Egocentric Action Recognition
- Title(参考訳): エゴセントリックな行動認識のためのマルチモーダル蒸留
- Authors: Gorjan Radevski, Dusan Grujicic, Marie-Francine Moens, Matthew
Blaschko, Tinne Tuytelaars
- Abstract要約: エゴセントリックなビデオ理解は、手動物体の相互作用をモデル化する。
CNNやVision Transformersなどの標準モデルは、入力としてRGBフレームを受信する。
しかし、それらの性能は補足的手がかりを提供する追加の入力モダリティを利用することによりさらに向上する。
この研究の目的は、RGBフレームのみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
- 参考スコア(独自算出の注目度): 41.821485757189656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The focal point of egocentric video understanding is modelling hand-object
interactions. Standard models, e.g. CNNs or Vision Transformers, which receive
RGB frames as input perform well. However, their performance improves further
by employing additional input modalities that provide complementary cues, such
as object detections, optical flow, audio, etc. The added complexity of the
modality-specific modules, on the other hand, makes these models impractical
for deployment. The goal of this work is to retain the performance of such a
multimodal approach, while using only the RGB frames as input at inference
time. We demonstrate that for egocentric action recognition on the
Epic-Kitchens and the Something-Something datasets, students which are taught
by multimodal teachers tend to be more accurate and better calibrated than
architecturally equivalent models trained on ground truth labels in a unimodal
or multimodal fashion. We further adopt a principled multimodal knowledge
distillation framework, allowing us to deal with issues which occur when
applying multimodal knowledge distillation in a naive manner. Lastly, we
demonstrate the achieved reduction in computational complexity, and show that
our approach maintains higher performance with the reduction of the number of
input views. We release our code at
https://github.com/gorjanradevski/multimodal-distillation.
- Abstract(参考訳): エゴセントリックビデオ理解の焦点は、手とオブジェクトの相互作用のモデリングである。
CNNやVision Transformersなどの標準モデルは、入力としてRGBフレームを受信する。
しかし、オブジェクト検出、光フロー、オーディオなど、補完的なヒントを提供する追加の入力モードを使用することで、パフォーマンスはさらに向上する。
一方、モダリティ固有のモジュールの複雑さが増すことで、これらのモデルはデプロイに非現実的になる。
この研究の目的は、RGBフレームのみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
我々は,epic-kitchens と something-something データセットにおける自己中心的行動認識において,マルチモーダル教師が指導する学生は,単モーダルあるいはマルチモーダルの手法で基底真理ラベルで訓練されたアーキテクチャ的に等価なモデルよりも正確かつより校正される傾向があることを実証する。
我々はさらに,マルチモーダル知識蒸留をナイーブな方法で適用する際に生じる問題に対処するための,原則付きマルチモーダル知識蒸留フレームワークも採用している。
最後に,計算複雑性の低減を実証し,本手法が入力ビューの削減とともに高い性能を維持していることを示す。
コードはhttps://github.com/gorjanradevski/multimodal-distillationでリリースします。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Students taught by multimodal teachers are superior action recognizers [41.821485757189656]
エゴセントリックなビデオ理解の焦点は、手動物体の相互作用をモデル化することである。
しかし、RGBフレームを入力として受信する標準モデル -- CNN、ビジョントランスフォーマーなど -- は、オブジェクト検出、光フロー、オーディオなどの追加のモダリティを利用することで、そのパフォーマンスがさらに向上する。
本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2022-10-09T19:37:17Z) - Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文 参考訳(メタデータ) (2022-02-24T15:12:17Z) - Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。
我々はSomething-v2ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2020-11-04T21:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。