論文の概要: Attention-Driven Multimodal Alignment for Long-term Action Quality Assessment
- arxiv url: http://arxiv.org/abs/2507.21945v1
- Date: Tue, 29 Jul 2025 15:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.646581
- Title: Attention-Driven Multimodal Alignment for Long-term Action Quality Assessment
- Title(参考訳): 長期行動品質評価のための注意駆動型マルチモーダルアライメント
- Authors: Xin Wang, Peng-Jie Li, Yuan-Yuan Shen,
- Abstract要約: 長時間の行動品質評価(AQA)は、最大数分間の動画における人間の活動の質を評価することに焦点を当てている。
LMAC-Net(Long-term Multimodal Attention Consistency Network)では,マルチモーダル特徴を明示的に整列する多モーダルアテンション一貫性機構を導入している。
RGデータセットとFis-Vデータセットで実施された実験は、LMAC-Netが既存の手法を大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 5.262258418692889
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long-term action quality assessment (AQA) focuses on evaluating the quality of human activities in videos lasting up to several minutes. This task plays an important role in the automated evaluation of artistic sports such as rhythmic gymnastics and figure skating, where both accurate motion execution and temporal synchronization with background music are essential for performance assessment. However, existing methods predominantly fall into two categories: unimodal approaches that rely solely on visual features, which are inadequate for modeling multimodal cues like music; and multimodal approaches that typically employ simple feature-level contrastive fusion, overlooking deep cross-modal collaboration and temporal dynamics. As a result, they struggle to capture complex interactions between modalities and fail to accurately track critical performance changes throughout extended sequences. To address these challenges, we propose the Long-term Multimodal Attention Consistency Network (LMAC-Net). LMAC-Net introduces a multimodal attention consistency mechanism to explicitly align multimodal features, enabling stable integration of visual and audio information and enhancing feature representations. Specifically, we introduce a multimodal local query encoder module to capture temporal semantics and cross-modal relations, and use a two-level score evaluation for interpretable results. In addition, attention-based and regression-based losses are applied to jointly optimize multimodal alignment and score fusion. Experiments conducted on the RG and Fis-V datasets demonstrate that LMAC-Net significantly outperforms existing methods, validating the effectiveness of our proposed approach.
- Abstract(参考訳): 長時間の行動品質評価(AQA)は、最大数分間の動画における人間の活動の質を評価することに焦点を当てている。
この課題は,リズム体操やフィギュアスケートなどの芸術スポーツの自動評価において重要な役割を担っている。
しかし、既存の手法は主に2つのカテゴリに分類される: 視覚的特徴のみに依存し、音楽のようなマルチモーダルなキューをモデル化するのに不適な非モーダルアプローチ、そして通常、単純な特徴レベルのコントラスト的融合を使用し、深いクロスモーダルなコラボレーションと時間的ダイナミクスを見越すマルチモーダルアプローチ。
その結果、モダリティ間の複雑な相互作用を捉えるのに苦労し、拡張シーケンスを通して重要なパフォーマンス変化を正確に追跡することができない。
これらの課題に対処するため,LMAC-Net(Long-term Multimodal Attention Consistency Network)を提案する。
LMAC-Netは、マルチモーダルな特徴を明示的に整列させるマルチモーダルなアテンション一貫性機構を導入し、視覚情報と音声情報の安定した統合と特徴表現の強化を可能にした。
具体的には、時間的意味論と相互関係を捉えるためのマルチモーダルなローカルクエリエンコーダモジュールを導入し、2段階のスコア評価を解釈結果に適用する。
さらに,マルチモーダルアライメントとスコア融合を協調的に最適化するために,アテンションベースおよびレグレッションベース損失を適用した。
RGおよびFis-Vデータセットを用いて行った実験により、LMAC-Netは既存の手法よりも優れており、提案手法の有効性が検証された。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
本稿では,マルチモーダルなCo-AttenDWGアーキテクチャを提案する。
我々はMIMICとSemEval Memotion 1.0に対するアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression [25.657978409890973]
アクションアセスメント(AQA)は、運動性能の自動的、公平な評価を目的としている。
現在の手法では、動画を固定フレームに分割することに集中しており、サブアクションの時間的連続性を損なう。
階層的なポーズ誘導型多段階コントラスト回帰による行動品質評価手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T10:20:16Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。