論文の概要: Learning Sparsity for Effective and Efficient Music Performance Question Answering
- arxiv url: http://arxiv.org/abs/2506.01319v1
- Date: Mon, 02 Jun 2025 05:02:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.275408
- Title: Learning Sparsity for Effective and Efficient Music Performance Question Answering
- Title(参考訳): 能率的・能率的問合せ解答のための空間学習
- Authors: Xingjian Diao, Tianzhen Yang, Chunhui Zhang, Weiyi Wu, Ming Cheng, Jiang Gui,
- Abstract要約: 本稿では,音楽AVQAに特化して設計されたスパース学習フレームワークであるSparsifyを紹介する。
3つのスパーシフィケーション戦略をエンドツーエンドパイプラインに統合し、Music AVQAデータセット上で最先端のパフォーマンスを達成する。
訓練時間の28.32%削減し、精度を保ちながら完全に訓練された高密度なものと比較して、明確な効率向上を示す。
- 参考スコア(独自算出の注目度): 10.90964145686319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music performances, characterized by dense and continuous audio as well as seamless audio-visual integration, present unique challenges for multimodal scene understanding and reasoning. Recent Music Performance Audio-Visual Question Answering (Music AVQA) datasets have been proposed to reflect these challenges, highlighting the continued need for more effective integration of audio-visual representations in complex question answering. However, existing Music AVQA methods often rely on dense and unoptimized representations, leading to inefficiencies in the isolation of key information, the reduction of redundancy, and the prioritization of critical samples. To address these challenges, we introduce Sparsify, a sparse learning framework specifically designed for Music AVQA. It integrates three sparsification strategies into an end-to-end pipeline and achieves state-of-the-art performance on the Music AVQA datasets. In addition, it reduces training time by 28.32% compared to its fully trained dense counterpart while maintaining accuracy, demonstrating clear efficiency gains. To further improve data efficiency, we propose a key-subset selection algorithm that selects and uses approximately 25% of MUSIC-AVQA v2.0 training data and retains 70-80% of full-data performance across models.
- Abstract(参考訳): 音楽の演奏は、密集した連続的なオーディオとシームレスなオーディオと視覚の統合を特徴とし、マルチモーダルシーンの理解と推論に固有の課題を提示する。
近年のAVQAデータセットは,これらの課題を反映し,複雑な質問応答における音声・視覚的表現のより効果的な統合の必要性を浮き彫りにしている。
しかし、既存の音楽AVQA法は、しばしば密度と最適化されていない表現に依存しており、鍵情報の分離、冗長性の低減、臨界サンプルの優先順位付けに非効率をもたらす。
これらの課題に対処するために,音楽AVQA用に特別に設計されたスパース学習フレームワークであるSparsifyを紹介した。
3つのスパーシフィケーション戦略をエンドツーエンドパイプラインに統合し、Music AVQAデータセット上で最先端のパフォーマンスを達成する。
さらに、精度を維持しながら、完全に訓練された高密度のトレーニングに比べてトレーニング時間を28.32%削減し、明確な効率向上を示す。
データ効率をさらに向上するため、MUSIC-AVQA v2.0トレーニングデータの約25%を選択・使用し、モデル間のフルデータ性能の70-80%を保持するキーサブセット選択アルゴリズムを提案する。
関連論文リスト
- Cocktail-Party Audio-Visual Speech Recognition [58.222892601847924]
本研究では,現在のAVSRシステムのベンチマークを行うために設計された,新しい音声-視覚カクテルパーティデータセットを提案する。
音声とサイレント顔の両方からなる1526時間AVSRデータセットをコントリビュートし,カクテルパーティー環境における顕著な性能向上を実現した。
我々の手法は、WERを最先端と比較して67%削減し、WERを明示的なセグメンテーション手法に頼ることなく、極音の119%から39.2%に削減する。
論文 参考訳(メタデータ) (2025-06-02T19:07:51Z) - CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023 [11.64675515432159]
視覚的特徴と音声的特徴を組み合わせるために,マルチモーダル融合方式を用いる。
最先端の自己教師付き事前学習ネットワークを用いて高品質な視覚特徴を抽出する。
同時に、音声機能は、モデルが音の開始と終了をよりよくローカライズするのに役立つ補完的な情報として機能する。
論文 参考訳(メタデータ) (2024-07-01T12:52:05Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-18T14:31:58Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。