論文の概要: Do Audio LLMs Really LISTEN, or Just Transcribe? Measuring Lexical vs. Acoustic Emotion Cues Reliance
- arxiv url: http://arxiv.org/abs/2510.10444v1
- Date: Sun, 12 Oct 2025 04:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.940335
- Title: Do Audio LLMs Really LISTEN, or Just Transcribe? Measuring Lexical vs. Acoustic Emotion Cues Reliance
- Title(参考訳): 音楽のLLMは本当にLISTENなのか、それとも単に転写音なのか? -レキシカルと音響的感情の信頼度の測定-
- Authors: Jingyi Chen, Zhimeng Guo, Jiyun Chun, Pichao Wang, Andrew Perrault, Micha Elsner,
- Abstract要約: LISTEN(Lexical vs. Acoustic Speech Test for Emotion in Narratives)は、感情理解における音響感度からの語彙依存を解消するためのベンチマークである。
6つの最先端のLALMの評価を総合して、一貫した語彙支配を観察する。
その結果、現在のLALMは「リスト」よりも「書き起こし」がほとんどであり、語彙の意味論に大きく依存し、音響的手がかりをあまり利用していないことが示唆された。
- 参考スコア(独自算出の注目度): 31.56814812308302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding emotion from speech requires sensitivity to both lexical and acoustic cues. However, it remains unclear whether large audio language models (LALMs) genuinely process acoustic information or rely primarily on lexical content. We present LISTEN (Lexical vs. Acoustic Speech Test for Emotion in Narratives), a controlled benchmark designed to disentangle lexical reliance from acoustic sensitivity in emotion understanding. Across evaluations of six state-of-the-art LALMs, we observe a consistent lexical dominance. Models predict "neutral" when lexical cues are neutral or absent, show limited gains under cue alignment, and fail to classify distinct emotions under cue conflict. In paralinguistic settings, performance approaches chance. These results indicate that current LALMs largely "transcribe" rather than "listen," relying heavily on lexical semantics while underutilizing acoustic cues. LISTEN offers a principled framework for assessing emotion understanding in multimodal models.
- Abstract(参考訳): 音声から感情を理解するには、語彙と音響の両方に敏感である必要がある。
しかし,大規模な音声言語モデル (LALM) が実際に音響情報を処理するのか,あるいは主に語彙コンテンツに依存しているのかは定かではない。
LISTEN(Lexical vs. Acoustic Speech Test for Emotion in Narratives)は,感情理解の音響感度から語彙依存を解き放つための制御ベンチマークである。
6つの最先端のLALMの評価を総合して、一貫した語彙支配を観察する。
モデルは、語彙的手がかりが中立であるか欠如しているかを予測し、キューアライメントの下で限られた利得を示し、キューコンフリクトの下で異なる感情の分類に失敗する。
パラ言語的な設定では、パフォーマンスはチャンスに近づきます。
これらの結果から,現在のLALMは「リスト」よりも「書き起こし」がほとんどであり,語彙的意味論に大きく依存し,音響的手がかりを欠いていることが示唆された。
LISTENは、マルチモーダルモデルにおける感情理解を評価するための原則的なフレームワークを提供する。
関連論文リスト
- Plug-and-Play Emotion Graphs for Compositional Prompting in Zero-Shot Speech Emotion Recognition [3.1649536621597973]
大規模音声言語モデル(LALM)は、音声タスク全体で強いゼロショット性能を示すが、音声感情認識(SER)に苦慮している。
そこで我々は,感情推論におけるLALMを微調整なしでガイドするための,感情推論のためのCCoT-Emo(Compositional Chain-of-Thought Prompting for Emotion Reasoning)を提案する。
論文 参考訳(メタデータ) (2025-09-29T20:06:03Z) - Fluent but Unfeeling: The Emotional Blind Spots of Language Models [1.248728117157669]
LLM(Large Language Models)が人間の感情と微粒なレベルで一致しているかどうかを評価する上で、重要なギャップが残っている。
Redditコミュニティから収集されたベンチマークデータセットであるExpressを紹介します。
包括的評価フレームワークは、予測された感情条件を検証し、確立された感情理論を用いて、それらを8つの基本的な感情に分解する。
論文 参考訳(メタデータ) (2025-09-11T16:31:13Z) - EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs [48.24838119552923]
音声から音声への大言語モデル (SLLM) が注目されている。
SLLMの現在の訓練パラダイムは、特徴表現空間の音響-意味的ギャップを埋めることに失敗した。
本稿では,意味表現を活用し,音声訓練対象を動的に生成するEchoXを提案する。
論文 参考訳(メタデータ) (2025-09-11T06:17:59Z) - WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations [67.6147632074449]
海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。
WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。
最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
論文 参考訳(メタデータ) (2025-08-28T16:29:46Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Prompting Audios Using Acoustic Properties For Emotion Representation [36.275219004598874]
感情を表現するために自然言語記述(あるいはプロンプト)の使用を提案する。
我々は、ピッチ、強度、発話速度、調音率などの感情に相関する音響特性を用いて、自動的にプロンプトを生成する。
その結果,様々なPrecision@K測定値において,音響的プロンプトがモデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-03T13:06:58Z) - Empirical Interpretation of the Relationship Between Speech Acoustic
Context and Emotion Recognition [28.114873457383354]
音声感情認識(SER)は、感情的な知性を得、発話の文脈的意味を理解するために不可欠である。
実際に、音声の感情は、所定の時間の間、音響セグメント上で単一のラベルとして扱われる。
本研究は,SERにおける音声コンテキストと音声境界が局所的マーカーに与える影響について,注意に基づくアプローチを用いて検討する。
論文 参考訳(メタデータ) (2023-06-30T09:21:48Z) - Detecting Emotion Carriers by Combining Acoustic and Lexical
Representations [7.225325393598648]
ナレーターの感情状態を最もよく説明するセグメントとして定義される感情キャリア(EC)に注目した。
ECは、自然言語理解を改善するために、ユーザ状態のよりリッチな表現を提供することができます。
音声話中の心電図の検出には,単語ベースの音響およびテキストの埋め込みに加えて,早期・後期の融合技術を利用する。
論文 参考訳(メタデータ) (2021-12-13T12:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。