論文の概要: Multimodal Action Quality Assessment
- arxiv url: http://arxiv.org/abs/2402.09444v2
- Date: Tue, 20 Feb 2024 06:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:16:53.681878
- Title: Multimodal Action Quality Assessment
- Title(参考訳): マルチモーダルアクション品質評価
- Authors: Ling-An Zeng and Wei-Shi Zheng
- Abstract要約: アクション品質アセスメント(AQA)とは、アクションがどれだけうまく実行されるかを評価することである。
我々は、AQAは視覚情報に強く依存しているが、オーディオはスコアの回帰精度を向上させるのに有用な補完情報であると主張している。
本稿では,モーダリティ固有情報と混合モーダリティ情報を個別にモデル化するプログレッシブ・アダプティブ・マルチモーダル・フュージョン・ネットワーク(PAMFN)を提案する。
- 参考スコア(独自算出の注目度): 40.10252351858076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action quality assessment (AQA) is to assess how well an action is performed.
Previous works perform modelling by only the use of visual information,
ignoring audio information. We argue that although AQA is highly dependent on
visual information, the audio is useful complementary information for improving
the score regression accuracy, especially for sports with background music,
such as figure skating and rhythmic gymnastics. To leverage multimodal
information for AQA, i.e., RGB, optical flow and audio information, we propose
a Progressive Adaptive Multimodal Fusion Network (PAMFN) that separately models
modality-specific information and mixed-modality information. Our model
consists of with three modality-specific branches that independently explore
modality-specific information and a mixed-modality branch that progressively
aggregates the modality-specific information from the modality-specific
branches. To build the bridge between modality-specific branches and the
mixed-modality branch, three novel modules are proposed. First, a
Modality-specific Feature Decoder module is designed to selectively transfer
modality-specific information to the mixed-modality branch. Second, when
exploring the interaction between modality-specific information, we argue that
using an invariant multimodal fusion policy may lead to suboptimal results, so
as to take the potential diversity in different parts of an action into
consideration. Therefore, an Adaptive Fusion Module is proposed to learn
adaptive multimodal fusion policies in different parts of an action. This
module consists of several FusionNets for exploring different multimodal fusion
strategies and a PolicyNet for deciding which FusionNets are enabled. Third, a
module called Cross-modal Feature Decoder is designed to transfer cross-modal
features generated by Adaptive Fusion Module to the mixed-modality branch.
- Abstract(参考訳): アクション品質アセスメント(AQA)とは、アクションがどれだけうまく実行されるかを評価することである。
従来の作品では、視覚情報のみを使用して、音声情報を無視してモデリングを行う。
我々は、AQAは視覚情報に強く依存しているが、特にフィギュアスケートやリズミカル体操などのバックグラウンド音楽を持つスポーツにおいて、スコアレグレッションの精度を向上させるために、オーディオは相補的な情報であると主張している。
本稿では,aqaのマルチモーダル情報,すなわちrgb,オプティカルフロー,オーディオ情報を活用するために,モダリティ固有情報と混合モーダル情報とを別々にモデル化するプログレッシブ適応マルチモーダル融合ネットワーク(pamfn)を提案する。
本モデルは,モーダリティ特化情報を独立に探索する3つのモーダリティ特化枝と,モーダリティ特化枝からモーダリティ特化情報を段階的に集約する混合モーダリティ分岐からなる。
モダリティ特異的分岐と混合モダリティ分岐のブリッジを構築するために、3つの新しいモジュールを提案する。
まず、modality-specific feature decoderモジュールは、modality-specific informationをmixed-modalityブランチに選択的に転送するように設計されている。
第二に、モーダリティ固有の情報間の相互作用を探究する際、不変なマルチモーダル融合ポリシーを用いることは、行動の様々な部分における潜在的な多様性を考慮に入れ、最適以下の結果をもたらす可能性があると論じる。
そこで,適応型融合モジュールを提案し,動作の異なる部分における適応型マルチモーダル融合ポリシーを学習する。
このモジュールは、異なるマルチモーダル核融合戦略を探索するためのFusionNetと、どのFusionNetが有効かを決定するポリシーNetで構成されている。
第3に、cross-modal feature decoderと呼ばれるモジュールは、adaptive fusion moduleによって生成されたcross-modal featuresをmixed-modalityブランチに転送するように設計されている。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。
本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:11Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - MMSFormer: Multimodal Transformer for Material and Semantic Segmentation [16.17270247327955]
本稿では,異なるモダリティの組み合わせから情報を効果的に融合できる新しい融合戦略を提案する。
また,MMSFormer(Multi-Modal TransFormer)と呼ばれる新たなモデルを提案する。
MMSFormerは、現在の最先端モデルを3つの異なるデータセットで上回る。
論文 参考訳(メタデータ) (2023-09-07T20:07:57Z) - A Self-Adjusting Fusion Representation Learning Model for Unaligned
Text-Audio Sequences [16.38826799727453]
融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の1つとなっている。
本稿では,不整合テキストや音声シーケンスから直接,頑健な相互拡散表現を学習するために,自己調整型融合表現学習モデルを提案する。
実験結果から,本モデルでは不整合テキスト・オーディオ・シーケンスにおける全ての指標の性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2022-11-12T13:05:28Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。