論文の概要: AGAV-Rater: Adapting Large Multimodal Model for AI-Generated Audio-Visual Quality Assessment
- arxiv url: http://arxiv.org/abs/2501.18314v1
- Date: Thu, 30 Jan 2025 12:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:13:47.510783
- Title: AGAV-Rater: Adapting Large Multimodal Model for AI-Generated Audio-Visual Quality Assessment
- Title(参考訳): AGAV-Rater:AI生成音声品質評価のための大規模マルチモーダルモデルの適用
- Authors: Yuqin Cao, Xiongkuo Min, Yixuan Gao, Wei Sun, Guangtao Zhai,
- Abstract要約: AI生成オーディオ視覚コンテンツ(AGAV)の効率的な品質評価手法は,音声視覚品質の確保に不可欠である。
AGAVQAは16VTA法から3,382基のAGAVの品質評価データセットである。
AGAV-RaterはAGAVQA、Text-to-Audio、Text-to-Musicデータセットの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 54.02700414197669
- License:
- Abstract: Many video-to-audio (VTA) methods have been proposed for dubbing silent AI-generated videos. An efficient quality assessment method for AI-generated audio-visual content (AGAV) is crucial for ensuring audio-visual quality. Existing audio-visual quality assessment methods struggle with unique distortions in AGAVs, such as unrealistic and inconsistent elements. To address this, we introduce AGAVQA, the first large-scale AGAV quality assessment dataset, comprising 3,382 AGAVs from 16 VTA methods. AGAVQA includes two subsets: AGAVQA-MOS, which provides multi-dimensional scores for audio quality, content consistency, and overall quality, and AGAVQA-Pair, designed for optimal AGAV pair selection. We further propose AGAV-Rater, a LMM-based model that can score AGAVs, as well as audio and music generated from text, across multiple dimensions, and selects the best AGAV generated by VTA methods to present to the user. AGAV-Rater achieves state-of-the-art performance on AGAVQA, Text-to-Audio, and Text-to-Music datasets. Subjective tests also confirm that AGAV-Rater enhances VTA performance and user experience. The project page is available at https://agav-rater.github.io.
- Abstract(参考訳): サイレントAI生成ビデオのダビングには、VTA(Video-to-audio)メソッドが多数提案されている。
AI生成オーディオ視覚コンテンツ(AGAV)の効率的な品質評価手法は,音声視覚品質の確保に不可欠である。
既存のオーディオ視覚品質評価手法は、非現実的要素や一貫性のない要素など、AGAVの独特の歪みに対処する。
これを解決するために,16VTA法から3,382個のAGAVからなる,最初の大規模AGAV品質評価データセットであるAGAVQAを紹介する。
AGAVQAにはオーディオ品質、コンテンツ一貫性、全体的な品質の多次元スコアを提供するAGAVQA-MOSと、最適なAGAVペア選択用に設計されたAGAVQA-Pairの2つのサブセットが含まれている。
さらに,複数の次元にまたがってテキストから生成したAGAVをスコアリングするLMMベースのモデルAGAV-Raterを提案し,VTA法で生成された最高のAGAVを選択してユーザに提示する。
AGAV-RaterはAGAVQA、Text-to-Audio、Text-to-Musicデータセットの最先端のパフォーマンスを達成する。
主観的なテストでは、AGAV-RaterがVTAのパフォーマンスとユーザエクスペリエンスを向上させることも確認されている。
プロジェクトのページはhttps://agav-rater.github.io.comで公開されている。
関連論文リスト
- AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - Perceptual Quality Assessment of Omnidirectional Audio-visual Signals [37.73157112698111]
全方向ビデオ(ODV)の既存の品質評価研究は、ビデオの視覚的歪みのみに焦点を当てている。
本稿では,ODVのための大規模オーディオ・視覚品質評価データセットを最初に構築する。
そして,全方位オーディオ視覚品質評価(OAVQA)のための3つのベースライン手法を設計する。
論文 参考訳(メタデータ) (2023-07-20T12:21:26Z) - Audio-Visual Quality Assessment for User Generated Content: Database and
Method [61.970768267688086]
既存のVQA研究の多くは、ユーザのQoEが付随する音声信号にも依存していることを無視して、ビデオの視覚的歪みのみに焦点を当てている。
SJTU-UAVデータベースと呼ばれる最初のAVQAデータベースを構築する。
また、サポートベクタ回帰器(SVR)を介して、一般的なVQA手法とオーディオ機能を融合したAVQAモデルのファミリーを設計する。
実験の結果,VQAモデルは,音声信号の助けを借りて,より正確な品質評価を行うことができた。
論文 参考訳(メタデータ) (2023-03-04T11:49:42Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - AVA-AVD: Audio-visual Speaker Diarization in the Wild [26.97787596025907]
既存のオーディオ視覚ダイアリゼーションデータセットは主に会議室やニューススタジオのような屋内環境に焦点を当てている。
本稿では,視覚情報に基づいて識別情報をキャプチャする効果的なモータリティマスクを導入した新しいオーディオ・ビジュアル・リレーション・ネットワーク(AVR-Net)を提案する。
論文 参考訳(メタデータ) (2021-11-29T11:02:41Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。