論文の概要: AEQ-Bench: Measuring Empathy of Omni-Modal Large Models
- arxiv url: http://arxiv.org/abs/2601.10513v1
- Date: Thu, 15 Jan 2026 15:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.199772
- Title: AEQ-Bench: Measuring Empathy of Omni-Modal Large Models
- Title(参考訳): AEQ-Bench:Omni-Modal Large Modelの共感を測定する
- Authors: Xuan Luo, Lewei Yao, Libo Zhao, Lanqing Hong, Kai Chen, Dehua Tao, Daxin Tan, Ruifeng Xu, Jing Li,
- Abstract要約: AEQ-Benchは、Omni-modal large model(OLM)の2つのコア共感能力を評価するための新しいベンチマークである。
AEQ-Benchは、文脈特異性と音声のトーンに異なる2つの新しい設定を取り入れている。
言語的・パラ言語的な指標の総合的な評価は、OLMが音声出力能力で訓練された場合、一般的にテキストのみの出力を持つモデルよりも優れていたことを示している。
- 参考スコア(独自算出の注目度): 55.722881748046895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the automatic evaluation of omni-modal large models (OLMs) is essential, assessing empathy remains a significant challenge due to its inherent affectivity. To investigate this challenge, we introduce AEQ-Bench (Audio Empathy Quotient Benchmark), a novel benchmark to systematically assess two core empathetic capabilities of OLMs: (i) generating empathetic responses by comprehending affective cues from multi-modal inputs (audio + text), and (ii) judging the empathy of audio responses without relying on text transcription. Compared to existing benchmarks, AEQ-Bench incorporates two novel settings that vary in context specificity and speech tone. Comprehensive assessment across linguistic and paralinguistic metrics reveals that (1) OLMs trained with audio output capabilities generally outperformed models with text-only outputs, and (2) while OLMs align with human judgments for coarse-grained quality assessment, they remain unreliable for evaluating fine-grained paralinguistic expressiveness.
- Abstract(参考訳): オムニ・モーダル大モデル(OLM)の自動評価は不可欠であるが、その本質的な感情性のため、共感の評価は重要な課題である。
AEQ-Bench(Audio Empathy Quotient Benchmark)は,OLMの2つのコア共感能力を体系的に評価する新しいベンチマークである。
一 マルチモーダル入力(オーディオ+テキスト)から感情的手がかりを解釈して共感的応答を生成すること。
(2)テキストの書き起こしに頼ることなく音声応答の共感を判断する。
既存のベンチマークと比較すると、AEQ-Benchにはコンテキスト特異性と音声のトーンに異なる2つの新しい設定が組み込まれている。
言語的・パラ言語学的指標の総合的な評価は,(1)音声出力能力の訓練を受けたOLMは,一般的にテキストのみの出力を持つモデルよりも優れており,(2)OLMは粗い品質評価のための人間の判断と一致しているが,粒度のパラ言語的表現性を評価するには信頼性が低いことを示唆している。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。