論文の概要: OmniVox: Zero-Shot Emotion Recognition with Omni-LLMs
- arxiv url: http://arxiv.org/abs/2503.21480v1
- Date: Thu, 27 Mar 2025 13:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:17.914744
- Title: OmniVox: Zero-Shot Emotion Recognition with Omni-LLMs
- Title(参考訳): OmniVox:Omni-LLMを用いたゼロショット感情認識
- Authors: John Murzaku, Owen Rambow,
- Abstract要約: ゼロショット感情認識タスクにおける4つのオムニ-LLMの最初の体系的評価であるOmniVoxを提案する。
我々は、IEMOCAPとMELDの2つの広く使われているマルチモーダル感情ベンチマークを評価し、ゼロショットのOmni-LLMが優れているか、微調整されたオーディオモデルと競合するかを見出した。
本稿では、音響特徴分析、会話コンテキスト分析、ステップバイステップ推論に焦点を当てた、オムニ-LLMの音声特異的プロンプト戦略である音響プロンプトについて述べる。
- 参考スコア(独自算出の注目度): 6.365802395342737
- License:
- Abstract: The use of omni-LLMs (large language models that accept any modality as input), particularly for multimodal cognitive state tasks involving speech, is understudied. We present OmniVox, the first systematic evaluation of four omni-LLMs on the zero-shot emotion recognition task. We evaluate on two widely used multimodal emotion benchmarks: IEMOCAP and MELD, and find zero-shot omni-LLMs outperform or are competitive with fine-tuned audio models. Alongside our audio-only evaluation, we also evaluate omni-LLMs on text only and text and audio. We present acoustic prompting, an audio-specific prompting strategy for omni-LLMs which focuses on acoustic feature analysis, conversation context analysis, and step-by-step reasoning. We compare our acoustic prompting to minimal prompting and full chain-of-thought prompting techniques. We perform a context window analysis on IEMOCAP and MELD, and find that using context helps, especially on IEMOCAP. We conclude with an error analysis on the generated acoustic reasoning outputs from the omni-LLMs.
- Abstract(参考訳): 音声を含むマルチモーダル認知状態タスクにおいて、オムニ-LLM(任意のモーダルを入力として受け入れる大きな言語モデル)の使用が検討されている。
ゼロショット感情認識タスクにおける4つのオムニ-LLMの最初の体系的評価であるOmniVoxを提案する。
我々は、IEMOCAPとMELDの2つの広く使われているマルチモーダル感情ベンチマークを評価し、ゼロショットのOmni-LLMが優れているか、微調整されたオーディオモデルと競合するかを見出した。
また,音声のみの評価に加えて,テキストと音声のみのOmni-LLMの評価を行った。
本稿では、音響特徴分析、会話コンテキスト分析、ステップバイステップ推論に焦点を当てた、オムニ-LLMの音声特異的プロンプト戦略である音響プロンプトについて述べる。
我々は、音響的プロンプトを最小限のプロンプトと完全なチェーン・オブ・シークレット・プロンプト技術と比較する。
我々は、IEMOCAPとMELDでコンテキストウィンドウ解析を行い、特にIEMOCAPでコンテキストを使うことが役立ちます。
そこで本研究では,Omni-LLMから生成した音響推論出力の誤差解析を行った。
関連論文リスト
- VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup [50.70494796172493]
Omni-modal Sound separation (OmniSep) は、Omni-modal クエリに基づいてクリーンなサウンドトラックを分離できる新しいフレームワークである。
トレーニング中に異なるモダリティからクエリ機能をブレンドするQuery-Mixup戦略を導入する。
我々は、クエリーが音の分離に肯定的または否定的に影響を与え、特定の音の保持や除去を容易にすることにより、この柔軟性をさらに強化する。
論文 参考訳(メタデータ) (2024-10-28T17:58:15Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Speech Emotion Recognition with Co-Attention based Multi-level Acoustic
Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。
マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。