Fugu-MT 論文翻訳(概要): Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

論文の概要: Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

arxiv url: http://arxiv.org/abs/2602.22659v1
Date: Thu, 26 Feb 2026 06:18:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.554594
Title: Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing
Title（参考訳）: クラウドソーシングによる音質評価データセットのスケーリング
Authors: Renyu Yang, Jian Jin, Lili Meng, Meiqin Liu, Yilin Wang, Balu Adsumilli, Weisi Lin,
Abstract要約: AVQAデータセット構築のための実用的なアプローチを提案する。 AVQAのためのクラウドソース型主観的実験フレームワークを設計し、インラブ設定の制約を破り、様々な環境にまたがって信頼性の高いアノテーションを実現する。ユーザ生成オーディオおよびビデオシーケンス1,620のAVQAデータセットのうち,最大かつ最も多様なYT-NTU-AVQを用いて,このアプローチを検証する。
参考スコア（独自算出の注目度）: 62.250874651622574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-visual quality assessment (AVQA) research has been stalled by limitations of existing datasets: they are typically small in scale, with insufficient diversity in content and quality, and annotated only with overall scores. These shortcomings provide limited support for model development and multimodal perception research. We propose a practical approach for AVQA dataset construction. First, we design a crowdsourced subjective experiment framework for AVQA, breaks the constraints of in-lab settings and achieves reliable annotation across varied environments. Second, a systematic data preparation strategy is further employed to ensure broad coverage of both quality levels and semantic scenarios. Third, we extend the dataset with additional annotations, enabling research on multimodal perception mechanisms and their relation to content. Finally, we validate this approach through YT-NTU-AVQ, the largest and most diverse AVQA dataset to date, consisting of 1,620 user-generated audio and video (A/V) sequences. The dataset and platform code are available at https://github.com/renyu12/YT-NTU-AVQ
Abstract（参考訳）: オーディオ視覚品質アセスメント(AVQA)の研究は、既存のデータセットの制限によって停滞している。これらの欠点は、モデル開発とマルチモーダル知覚研究の限定的なサポートを提供する。 AVQAデータセット構築のための実用的なアプローチを提案する。まず、AVQAのためのクラウドソース型主観的実験フレームワークを設計し、インラブ設定の制約を破り、様々な環境にまたがって信頼性の高いアノテーションを実現する。第2に、品質レベルとセマンティックシナリオの両方の広範なカバレッジを確保するために、システマティックなデータ準備戦略がさらに採用されている。第3に、追加アノテーションでデータセットを拡張し、マルチモーダル認識機構とそのコンテンツとの関係の研究を可能にする。最後に,これまでに最大かつ多種多様なAVQAデータセットであるYT-NTU-AVQを用いて,ユーザ生成オーディオおよびビデオ(A/V)シーケンスを1,620個作成することで,このアプローチを検証した。データセットとプラットフォームコードはhttps://github.com/renyu12/YT-NTU-AVQで公開されている。

関連論文リスト

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文参考訳（メタデータ） (2025-11-24T07:00:21Z)
CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video [9.172799792564009]
本稿では,大規模モデルの意味理解機能を活用した新しいNR-VQAフレームワークであるCAMP-VQAを提案する。本手法では,フレーム間変動から抽出したキーフラグメントを統合する品質対応ビデオメタデータ機構を提案する。我々のモデルは既存のNR-VQA法を一貫して上回り、手作業の細かいアノテーションを使わずに精度の向上を実現している。
論文参考訳（メタデータ） (2025-11-10T16:37:47Z)
Research on Audio-Visual Quality Assessment Dataset and Method for User-Generated Omnidirectional Video [6.117081165682988]
我々は全方向オーディオ・ビデオ(A/V)コンテンツのデータセットを構築した。データセット上で主観的なAVQA実験を行い、平均オピニオンスコアを得る。提案したデータセットに基づいて有効なAVQAベースラインモデルを構築する。
論文参考訳（メタデータ） (2025-06-12T03:40:30Z)
Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文参考訳（メタデータ） (2025-05-06T15:29:32Z)
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning [31.61978841892981]
本稿では,2つの段階で構築された新しいデータセットFortisAVQAを紹介する。第1段階はより多様性のあるテスト空間を拡大し、第2段階は洗練された堅牢性評価を可能にする。我々のアーキテクチャはFortisAVQAの最先端性能を実現し、7.81%の顕著な改善を実現している。
論文参考訳（メタデータ） (2025-04-01T07:23:50Z)
Video Quality Assessment: A Comprehensive Survey [55.734935003021576]
映像品質評価(VQA)は,映像の品質を知覚された品質の人間の判断と整合した方法で予測することを目的とした,重要な処理課題である。本稿では,VQAアルゴリズムの開発における最近の進歩と,それらを実現するためのベンチマーク研究とデータベースについて述べる。
論文参考訳（メタデータ） (2024-12-04T05:25:17Z)
Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering [25.577314828249897]
本稿では,公開データセット(MUSIC-AVQA)のテストスプリット内での質問の表現と,分割された質問に対する分散シフトの導入という,2つのステップで構築された新しいデータセットMUSIC-AVQA-Rを提案する。実験の結果、このアーキテクチャはMUSIC-AVQA-Rの最先端性能を実現し、特に9.32%の大幅な改善が得られた。
論文参考訳（メタデータ） (2024-04-18T09:16:02Z)
AQUALLM: Audio Question Answering Data Generation Using Large Language Models [2.2232550112727267]
大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。 AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
論文参考訳（メタデータ） (2023-12-28T20:01:27Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文参考訳（メタデータ） (2023-07-26T06:38:33Z)
Automatic Curation of Large-Scale Datasets for Audio-Visual Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2021-01-26T14:27:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。