論文の概要: AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization
- arxiv url: http://arxiv.org/abs/2602.07054v1
- Date: Wed, 04 Feb 2026 18:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.405324
- Title: AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization
- Title(参考訳): AVERE: 優先最適化による聴覚的感情推論の改善
- Authors: Ashutosh Chaubey, Jiacheng Pang, Maksim Siniukov, Mohammad Soleymani,
- Abstract要約: EmoReAlMは,情動関連,幻覚,モダリティ合意のためのMLLMを評価するためのベンチマークである。
次に,AVEm-DPOを提案する。AVEm-DPOは,モデル応答を音声視覚入力と感情中心クエリの両方に整合させる選好最適化手法である。
- 参考スコア(独自算出の注目度): 4.717234403152243
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Emotion understanding is essential for building socially intelligent agents. Although recent multimodal large language models have shown strong performance on this task, two key challenges remain - spurious associations between emotions and irrelevant audiovisual cues, and hallucinations of audiovisual cues driven by text priors in the language model backbone. To quantify and understand these issues, we introduce EmoReAlM, a benchmark designed to evaluate MLLMs for cue-emotion associations, hallucinations and modality agreement. We then propose AVEm-DPO, a preference optimization technique that aligns model responses with both audiovisual inputs and emotion-centric queries. Specifically, we construct preferences over responses exhibiting spurious associations or hallucinations, and audiovisual input pairs guided by textual prompts. We also include a regularization term that penalizes reliance on text priors, thereby mitigating modality-specific cue hallucinations. Experimental results on DFEW, RAVDESS and EMER demonstrate that our method significantly improves the performance of the reference baseline models with 6-19% of relative performance gains in zero-shot settings. By providing both a rigorous benchmark and a robust optimization framework, this work enables principled evaluation and improvement of MLLMs for emotion understanding and social AI. Code, models and benchmark will be released at https://avere-iclr.github.io.
- Abstract(参考訳): 感情理解は、社会的に知的なエージェントを構築するのに不可欠である。
最近のマルチモーダルな大規模言語モデルは、このタスクにおいて強いパフォーマンスを示しているが、感情と無関係な音声視覚的手がかりの刺激的な関連、および言語モデルバックボーン内のテキスト先行によって駆動される音声視覚的手がかりの幻覚という、2つの大きな課題が残っている。
これらの問題を定量化し理解するために,情緒的連想,幻覚,モダリティ合意のためのMLLMを評価するためのベンチマークであるEmoReAlMを紹介する。
次に,AVEm-DPOを提案する。AVEm-DPOは,モデル応答を音声視覚入力と感情中心クエリの両方に整合させる選好最適化手法である。
具体的には、刺激的な関連性や幻覚を示す応答と、テキストのプロンプトで案内される音声視覚入力ペアを優先的に構築する。
また、テキストの先行性に依存していることを罰する正規化用語も含み、それによってモダリティ固有のキュー幻覚を緩和する。
DFEW, RAVDESS, EMERによる実験結果から, ゼロショット設定における相対的な性能向上の6-19%で基準ベースラインモデルの性能を著しく向上することが示された。
厳格なベンチマークと堅牢な最適化フレームワークを提供することで、感情理解と社会AIのためのMLLMの原則的評価と改善が可能になる。
コード、モデル、ベンチマークはhttps://avere-iclr.github.io.comで公開される。
関連論文リスト
- An Evaluation of Interleaved Instruction Tuning on Semantic Reasoning Performance in an Audio MLLM [15.340075567628466]
本研究は,プロンプト内で音声トークンをインターリーブするMLLMにおいて,インターリーブド・インストラクション・チューニングが与える影響について検討した。
その結果,ゼロショットインターリーブでも推論タスクの性能は向上するが,微調整が少なすぎると結果がさらに改善することがわかった。
論文 参考訳(メタデータ) (2025-11-04T03:54:55Z) - EmoSLLM: Parameter-Efficient Adaptation of LLMs for Speech Emotion Recognition [0.0]
音声からの感情認識は言語とパラ言語の両方を捉えることを必要とする難しい課題である。
最近の研究は、Large Language Models(LLM)が唯一の自然言語領域の外でタスクを実行する能力を強調している。
本研究は、感情予測のための音声およびテキスト表現を備えたLLMを微調整する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-08-19T06:58:16Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。