論文の概要: Mutual Modality Learning for Video Action Classification
- arxiv url: http://arxiv.org/abs/2011.02543v1
- Date: Wed, 4 Nov 2020 21:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:32:03.223516
- Title: Mutual Modality Learning for Video Action Classification
- Title(参考訳): ビデオアクション分類のための相互モダリティ学習
- Authors: Stepan Komkov, Maksim Dzabraev, Aleksandr Petiushko
- Abstract要約: ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。
我々はSomething-v2ベンチマークで最先端の結果を得た。
- 参考スコア(独自算出の注目度): 74.83718206963579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The construction of models for video action classification progresses
rapidly. However, the performance of those models can still be easily improved
by ensembling with the same models trained on different modalities (e.g.
Optical flow). Unfortunately, it is computationally expensive to use several
modalities during inference. Recent works examine the ways to integrate
advantages of multi-modality into a single RGB-model. Yet, there is still a
room for improvement. In this paper, we explore the various methods to embed
the ensemble power into a single model. We show that proper initialization, as
well as mutual modality learning, enhances single-modality models. As a result,
we achieve state-of-the-art results in the Something-Something-v2 benchmark.
- Abstract(参考訳): 映像行動分類モデルの構築は急速に進んでいる。
しかし、これらのモデルの性能は、異なるモードで訓練された同じモデル(例えば光学フロー)をアンサンブルすることで、容易に改善できる。
残念ながら、推論中にいくつかのモダリティを使用するのは計算コストがかかる。
近年の研究では、マルチモーダリティの利点を単一のRGBモデルに統合する方法が検討されている。
しかし、改善の余地はまだあります。
本稿では,アンサンブルパワーを1つのモデルに組み込む様々な手法について検討する。
適切な初期化と相互モダリティ学習が単一モダリティモデルを強化することを示す。
その結果、Something-v2ベンチマークで最先端の結果が得られた。
関連論文リスト
- Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Fine-Grained Scene Image Classification with Modality-Agnostic Adapter [8.801601759337006]
MAA(Modality-Agnostic Adapter)と呼ばれる新しいマルチモーダル特徴融合手法を提案する。
我々は分散のモーダル差を排除し、その後、意味レベルの特徴融合のためにモダリティに依存しないトランスフォーマーエンコーダを使用する。
実験により,MAAは従来の手法と同一のモーダル性を適用することで,ベンチマーク上での最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-03T02:57:14Z) - Mutual Learning for Finetuning Click-Through Rate Prediction Models [0.0]
本稿では,相互学習アルゴリズムが対等である場合に,いかに有用かを示す。
CriteoデータセットとAvazuデータセットの実験では、相互学習アルゴリズムがモデルの性能を最大0.66%改善した。
論文 参考訳(メタデータ) (2024-06-17T20:56:30Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Multimodal Distillation for Egocentric Action Recognition [41.821485757189656]
エゴセントリックなビデオ理解は、手動物体の相互作用をモデル化する。
CNNやVision Transformersなどの標準モデルは、入力としてRGBフレームを受信する。
しかし、それらの性能は補足的手がかりを提供する追加の入力モダリティを利用することによりさらに向上する。
この研究の目的は、RGBフレームのみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2023-07-14T17:07:32Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文 参考訳(メタデータ) (2022-11-25T06:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。