論文の概要: AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering
- arxiv url: http://arxiv.org/abs/2601.14728v1
- Date: Wed, 21 Jan 2026 07:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.277858
- Title: AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering
- Title(参考訳): AQAScore:音声質問応答によるテキスト・ツー・オーディオ生成における意味的アライメントの評価
- Authors: Chun-Yi Kuan, Kai-Wei Chang, Hung-yi Lee,
- Abstract要約: 音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。
AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
- 参考スコア(独自算出の注目度): 97.52852990265136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although text-to-audio generation has made remarkable progress in realism and diversity, the development of evaluation metrics has not kept pace. Widely-adopted approaches, typically based on embedding similarity like CLAPScore, effectively measure general relevance but remain limited in fine-grained semantic alignment and compositional reasoning. To address this, we introduce AQAScore, a backbone-agnostic evaluation framework that leverages the reasoning capabilities of audio-aware large language models (ALLMs). AQAScore reformulates assessment as a probabilistic semantic verification task; rather than relying on open-ended text generation, it estimates alignment by computing the exact log-probability of a "Yes" answer to targeted semantic queries. We evaluate AQAScore across multiple benchmarks, including human-rated relevance, pairwise comparison, and compositional reasoning tasks. Experimental results show that AQAScore consistently achieves higher correlation with human judgments than similarity-based metrics and generative prompting baselines, showing its effectiveness in capturing subtle semantic inconsistencies and scaling with the capability of underlying ALLMs.
- Abstract(参考訳): テクスト・トゥ・オーディオ生成は、リアリズムと多様性において顕著な進歩を遂げているが、評価指標の開発はペースを保っていない。
CLAPScoreのような埋め込み類似性に基づく広義のアプローチは、一般的な妥当性を効果的に測定するが、微粒なセマンティックアライメントや構成的推論に制限される。
これを解決するために、オーディオ対応大規模言語モデル(ALLM)の推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。
AQAScoreは、アセスメントを確率論的セマンティック検証タスクとして再構成し、オープンエンドテキスト生成に頼るのではなく、ターゲットセマンティッククエリに対する"Yes"回答の正確なログ確率を計算することでアライメントを推定する。
AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
実験結果から,AQAScoreは類似度に基づく指標よりも高い相関を保ち,ベースラインを生成し,意味的不整合を捕捉し,基盤となるALLMの能力で拡張する効果を示した。
関連論文リスト
- SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation [55.26111461168754]
本稿では,文レベルの意味理解とキーワードレベルの意味理解と簡単なキーワードマッチングを組み合わせた新しいアプローチであるSemantic Metric Integrating Lexical Exactnessを紹介する。
人間の判断と計算学的に軽量であり、語彙的評価と意味的評価のギャップを埋める。
論文 参考訳(メタデータ) (2025-11-21T17:30:18Z) - AURA Score: A Metric For Holistic Audio Question Answering Evaluation [57.042210272137396]
AQAメトリクスのシステマティックなベンチマークを可能にするために、AQEvalを導入します。
これはこの種の最初のベンチマークであり、その正確さと妥当性のために、複数の人間が注釈付けした10kモデル応答で構成されている。
第2に、既存のAQAメトリクスをAQEval上で総合的に分析し、人間の判断と弱い相関を明らかにする。
第3に、オープンなモデル応答をよりよく評価するための新しい指標であるAURAスコアを提案する。
論文 参考訳(メタデータ) (2025-10-06T15:41:34Z) - Objective Evaluation of Prosody and Intelligibility in Speech Synthesis via Conditional Prediction of Discrete Tokens [16.10999154707507]
本稿では,離散音声トークンの条件付き予測に基づく,ターゲット型かつ参照不要な評価フレームワークであるTScoreを提案する。
TTScoreは入力テキストに条件付きシーケンス・ツー・シーケンス予測器を2つ採用している: TTScore-intはコンテンツトークンによるインテリジェンスを計測し、TScore-proはプロソディトークンによるプロソディを評価する。
SOMOS、VoiceMOS、TTSArenaベンチマークの実験では、TScore-intとTScore-proは信頼性が高く、アスペクト特異的な評価を提供し、既存のインテリジェンスや韻律中心のメトリクスよりも、全体的な品質の人間の判断と強い相関性を実現する。
論文 参考訳(メタデータ) (2025-09-24T18:55:18Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。