論文の概要: Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing
- arxiv url: http://arxiv.org/abs/2602.22659v1
- Date: Thu, 26 Feb 2026 06:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.554594
- Title: Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing
- Title(参考訳): クラウドソーシングによる音質評価データセットのスケーリング
- Authors: Renyu Yang, Jian Jin, Lili Meng, Meiqin Liu, Yilin Wang, Balu Adsumilli, Weisi Lin,
- Abstract要約: AVQAデータセット構築のための実用的なアプローチを提案する。
AVQAのためのクラウドソース型主観的実験フレームワークを設計し、インラブ設定の制約を破り、様々な環境にまたがって信頼性の高いアノテーションを実現する。
ユーザ生成オーディオおよびビデオシーケンス1,620のAVQAデータセットのうち,最大かつ最も多様なYT-NTU-AVQを用いて,このアプローチを検証する。
- 参考スコア(独自算出の注目度): 62.250874651622574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual quality assessment (AVQA) research has been stalled by limitations of existing datasets: they are typically small in scale, with insufficient diversity in content and quality, and annotated only with overall scores. These shortcomings provide limited support for model development and multimodal perception research. We propose a practical approach for AVQA dataset construction. First, we design a crowdsourced subjective experiment framework for AVQA, breaks the constraints of in-lab settings and achieves reliable annotation across varied environments. Second, a systematic data preparation strategy is further employed to ensure broad coverage of both quality levels and semantic scenarios. Third, we extend the dataset with additional annotations, enabling research on multimodal perception mechanisms and their relation to content. Finally, we validate this approach through YT-NTU-AVQ, the largest and most diverse AVQA dataset to date, consisting of 1,620 user-generated audio and video (A/V) sequences. The dataset and platform code are available at https://github.com/renyu12/YT-NTU-AVQ
- Abstract(参考訳): オーディオ視覚品質アセスメント(AVQA)の研究は、既存のデータセットの制限によって停滞している。
これらの欠点は、モデル開発とマルチモーダル知覚研究の限定的なサポートを提供する。
AVQAデータセット構築のための実用的なアプローチを提案する。
まず、AVQAのためのクラウドソース型主観的実験フレームワークを設計し、インラブ設定の制約を破り、様々な環境にまたがって信頼性の高いアノテーションを実現する。
第2に、品質レベルとセマンティックシナリオの両方の広範なカバレッジを確保するために、システマティックなデータ準備戦略がさらに採用されている。
第3に、追加アノテーションでデータセットを拡張し、マルチモーダル認識機構とそのコンテンツとの関係の研究を可能にする。
最後に,これまでに最大かつ多種多様なAVQAデータセットであるYT-NTU-AVQを用いて,ユーザ生成オーディオおよびビデオ(A/V)シーケンスを1,620個作成することで,このアプローチを検証した。
データセットとプラットフォームコードはhttps://github.com/renyu12/YT-NTU-AVQで公開されている。
関連論文リスト
- Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning [31.61978841892981]
本稿では,2つの段階で構築された新しいデータセットFortisAVQAを紹介する。
第1段階はより多様性のあるテスト空間を拡大し、第2段階は洗練された堅牢性評価を可能にする。
我々のアーキテクチャはFortisAVQAの最先端性能を実現し、7.81%の顕著な改善を実現している。
論文 参考訳(メタデータ) (2025-04-01T07:23:50Z) - Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering [25.577314828249897]
本稿では,公開データセット(MUSIC-AVQA)のテストスプリット内での質問の表現と,分割された質問に対する分散シフトの導入という,2つのステップで構築された新しいデータセットMUSIC-AVQA-Rを提案する。
実験の結果、このアーキテクチャはMUSIC-AVQA-Rの最先端性能を実現し、特に9.32%の大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-04-18T09:16:02Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。