論文の概要: M&M Mix: A Multimodal Multiview Transformer Ensemble
- arxiv url: http://arxiv.org/abs/2206.09852v1
- Date: Mon, 20 Jun 2022 15:31:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 08:00:53.377918
- Title: M&M Mix: A Multimodal Multiview Transformer Ensemble
- Title(参考訳): M&M Mix:マルチモーダル・マルチビュー・トランスフォーマー・アンサンブル
- Authors: Xuehan Xiong, Anurag Arnab, Arsha Nagrani, Cordelia Schmid
- Abstract要約: 本報告は,2022年のEpic-Kitchens Action Recognition Challengeにおける優勝ソリューションの背景にあるアプローチについて述べる。
提案手法は,MTV(Multiview Transformer for Video Recognition)に基づいて,マルチモーダル入力に適応する。
本手法は,アクションクラスにおけるテストセットのTop-1精度を52.8%向上させた。
- 参考スコア(独自算出の注目度): 77.16389667210427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes the approach behind our winning solution to the 2022
Epic-Kitchens Action Recognition Challenge. Our approach builds upon our recent
work, Multiview Transformer for Video Recognition (MTV), and adapts it to
multimodal inputs. Our final submission consists of an ensemble of Multimodal
MTV (M&M) models varying backbone sizes and input modalities. Our approach
achieved 52.8% Top-1 accuracy on the test set in action classes, which is 4.1%
higher than last year's winning entry.
- Abstract(参考訳): 本報告では,2022年のEpic-Kitchens Action Recognition Challengeにおける優勝ソリューションの背景について述べる。
私たちのアプローチは、ビデオ認識のためのマルチビュートランスフォーマー(mtv)という最近の研究に基づいており、マルチモーダル入力に適応しています。
我々の最終提出は、バックボーンサイズと入力モードの異なるマルチモーダルMTV(M&M)モデルのアンサンブルで構成される。
私たちのアプローチは、アクションクラスにおけるテストセットで52.8%のtop-1精度を達成しました。
関連論文リスト
- MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.28164854480912]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。
MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。
GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文 参考訳(メタデータ) (2024-06-13T17:59:52Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval [34.343617836027725]
本稿では,テキストクエリとビデオ中の各モダリティコンテンツ間の包括的相互作用を探索するマルチレベルマルチモーダルハイブリッドフュージョンネットワークを提案する。
私たちのフレームワークは,アンサンブルの方法とエンドツーエンドの方法を含む,2種類のトレーニング戦略を提供します。
論文 参考訳(メタデータ) (2022-08-16T10:51:37Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Skating-Mixer: Multimodal MLP for Scoring Figure Skating [31.346611498891964]
我々はSkating-Mixerというマルチモーダルアーキテクチャを導入する。
設計したメモリリカレントユニット(MRU)を用いて,長期的表現を効果的に学習する。
実験により、提案手法は、公開Fis-VおよびFS1000データセット上のすべての主要な指標に対してSOTAよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-03-08T10:36:55Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval [36.50847375135979]
ビデオデータからのマルチモーダル学習は、人間のアノテーションを使わずに意味のある埋め込みを訓練できるため、近年注目を集めている。
本稿では,ビデオ,音声,テキストなどの複数のモーダル間の情報交換を学習し,それらを結合したマルチモーダル表現に統合するマルチモーダル・モーダル融合トランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2021-12-08T18:14:57Z) - Top1 Solution of QQ Browser 2021 Ai Algorithm Competition Track 1 :
Multimodal Video Similarity [0.6445605125467573]
QQブラウザ2021 Aiアルゴリズムコンペティション(AIAC)トラック1のソリューションについて説明する。
プレトレイン段階では、(1)ビデオタグ分類(VTC)、(2)マスク言語モデリング(MLM)、(3)マスクフレームモデリング(MFM)の3つのタスクでモデルを訓練する。
ファインチューンフェーズでは、ランク付き正規化人間ラベルに基づいて、映像類似度でモデルを訓練する。
私たちの完全なパイプラインは、いくつかのモデルを組み立てた後、リーダーボードで0.852を獲得しました。
論文 参考訳(メタデータ) (2021-10-30T15:38:04Z) - M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product
Downstream Tasks [94.80043324367858]
我々は600万以上のマルチモーダルペアからなるM5Productという大規模データセットをコントリビュートする。
M5Productには、画像、テキスト、テーブル、ビデオ、オーディオなど、複数のモードの豊富な情報が含まれている。
論文 参考訳(メタデータ) (2021-09-09T13:50:22Z) - The Multi-Modal Video Reasoning and Analyzing Competition [40.13636409397136]
ICCV 2021と共にMMVRAC(Multi-Modal Video Reasoning and Analyzing Competition)ワークショップを開催する。
このコンペティションは、ビデオ質問応答、骨格に基づく行動認識、魚眼ビデオに基づく行動認識、人物の再識別の4つの異なるトラックで構成されている。
本大会の参加者が提出したトップパフォーマンス手法を要約し, コンペで達成した成果を示す。
論文 参考訳(メタデータ) (2021-08-18T18:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。