論文の概要: Students taught by multimodal teachers are superior action recognizers
- arxiv url: http://arxiv.org/abs/2210.04331v1
- Date: Sun, 9 Oct 2022 19:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:47:24.804644
- Title: Students taught by multimodal teachers are superior action recognizers
- Title(参考訳): マルチモーダル教師が教える学生は優れた行動認識者である
- Authors: Gorjan Radevski, Dusan Grujicic, Matthew Blaschko, Marie-Francine
Moens, Tinne Tuytelaars
- Abstract要約: エゴセントリックなビデオ理解の焦点は、手動物体の相互作用をモデル化することである。
しかし、RGBフレームを入力として受信する標準モデル -- CNN、ビジョントランスフォーマーなど -- は、オブジェクト検出、光フロー、オーディオなどの追加のモダリティを利用することで、そのパフォーマンスがさらに向上する。
本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
- 参考スコア(独自算出の注目度): 41.821485757189656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The focal point of egocentric video understanding is modelling hand-object
interactions. Standard models -- CNNs, Vision Transformers, etc. -- which
receive RGB frames as input perform well, however, their performance improves
further by employing additional modalities such as object detections, optical
flow, audio, etc. as input. The added complexity of the required
modality-specific modules, on the other hand, makes these models impractical
for deployment. The goal of this work is to retain the performance of such
multimodal approaches, while using only the RGB images as input at inference
time. Our approach is based on multimodal knowledge distillation, featuring a
multimodal teacher (in the current experiments trained only using object
detections, optical flow and RGB frames) and a unimodal student (using only RGB
frames as input). We present preliminary results which demonstrate that the
resulting model -- distilled from a multimodal teacher -- significantly
outperforms the baseline RGB model (trained without knowledge distillation), as
well as an omnivorous version of itself (trained on all modalities jointly), in
both standard and compositional action recognition.
- Abstract(参考訳): エゴセントリックビデオ理解の焦点は、手とオブジェクトの相互作用のモデリングである。
しかし、入力としてrgbフレームを受信する標準モデル(cnn、視覚トランスフォーマーなど)は、オブジェクト検出、光フロー、オーディオなどの付加的なモダリティを入力として使用することにより、さらにパフォーマンスが向上する。
一方、必要なモダリティ固有のモジュールの追加の複雑さは、これらのモデルをデプロイには実用的ではない。
本研究の目的は、RGB画像のみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
提案手法はマルチモーダルな知識蒸留を基礎とし,多モーダルな教師(物体検出,光フロー,RGBフレームのみを用いた訓練)と,学生(RGBフレームのみを入力として使用する)を特徴とする。
本研究は,マルチモーダル教師から蒸留したモデルが,標準動作認識と構成動作認識の両方において,ベースラインrgbモデル(知識蒸留を伴わない学習)と雑多なバージョン(すべてのモーダルを併用して訓練)を有意に上回っていることを示す予備的結果を示す。
関連論文リスト
- Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection [12.462709547836289]
可視光(RGB)や赤外線(IR)のような複数のモードを使用することで、オブジェクト検出(OD)のような予測タスクの性能を大幅に向上させることができる。
本稿では,RGB と IR のモダリティの異なる手法に取り組み,一方のモダリティと他方のモダリティのみを1つの共有ビジョンエンコーダで観測する。
本研究では、RGBとIRのモダリティを効率よく活用して、共通トランスフォーマーベースのODビジョンエンコーダをトレーニングし、モダリティの不均衡の影響に対処する方法について検討する。
論文 参考訳(メタデータ) (2024-04-29T16:42:58Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Multimodal Distillation for Egocentric Action Recognition [41.821485757189656]
エゴセントリックなビデオ理解は、手動物体の相互作用をモデル化する。
CNNやVision Transformersなどの標準モデルは、入力としてRGBフレームを受信する。
しかし、それらの性能は補足的手がかりを提供する追加の入力モダリティを利用することによりさらに向上する。
この研究の目的は、RGBフレームのみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2023-07-14T17:07:32Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Unified Object Detector for Different Modalities based on Vision
Transformers [1.14219428942199]
我々は様々なモードで優れた性能を実現する統一検出器を開発した。
我々の研究は、RGBカメラと深度センサーをシームレスに切り替えるロボット工学の応用シナリオを思い描いている。
我々は,SUN RGB-Dデータセット上での統一モデルの評価を行い,mAP50で類似あるいは良好な性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-03T16:01:04Z) - Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。
我々はSomething-v2ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2020-11-04T21:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。