論文の概要: Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2412.05167v1
- Date: Fri, 06 Dec 2024 16:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:23.276520
- Title: Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models
- Title(参考訳): 大規模音声言語モデルのためのオープンエンド音声対話理解のベンチマーク
- Authors: Kuofeng Gao, Shu-Tao Xia, Ke Xu, Philip Torr, Jindong Gu,
- Abstract要約: LALM(Large Audio-Language Models)は、LALMと人間間の音声言語を直接交換する音声対話機能を持つ。
GPT-4oのような最近の進歩により、LALMは人との前後の音声対話を可能にしている。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
- 参考スコア(独自算出の注目度): 58.43486430996411
- License:
- Abstract: Large Audio-Language Models (LALMs) have unclocked audio dialogue capabilities, where audio dialogues are a direct exchange of spoken language between LALMs and humans. Recent advances, such as GPT-4o, have enabled LALMs in back-and-forth audio dialogues with humans. This progression not only underscores the potential of LALMs but also broadens their applicability across a wide range of practical scenarios supported by audio dialogues. However, given these advancements, a comprehensive benchmark to evaluate the performance of LALMs in the open-ended audio dialogue understanding remains absent currently. To address this gap, we propose an Audio Dialogue Understanding Benchmark (ADU-Bench), which consists of 4 benchmark datasets. They assess the open-ended audio dialogue ability for LALMs in 3 general scenarios, 12 skills, 9 multilingual languages, and 4 categories of ambiguity handling. Notably, we firstly propose the evaluation of ambiguity handling in audio dialogues that expresses different intentions beyond the same literal meaning of sentences, e.g., "Really!?" with different intonations. In summary, ADU-Bench includes over 20,000 open-ended audio dialogues for the assessment of LALMs. Through extensive experiments conducted on 13 LALMs, our analysis reveals that there is still considerable room for improvement in the audio dialogue understanding abilities of existing LALMs. In particular, they struggle with mathematical symbols and formulas, understanding human behavior such as roleplay, comprehending multiple languages, and handling audio dialogue ambiguities from different phonetic elements, such as intonations, pause positions, and homophones.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、LALMと人間間の音声言語を直接交換する音声対話機能を持つ。
GPT-4oのような最近の進歩により、LALMは人との前後の音声対話を可能にしている。
この進歩は、LALMの可能性を浮き彫りにするだけでなく、音声対話によってサポートされる幅広い実践シナリオにも適用範囲を広げる。
しかし、これらの進歩を踏まえると、オープンエンド音声対話理解におけるLALMの性能を評価するための総合的なベンチマークは、まだ残っていない。
このギャップを解決するために,4つのベンチマークデータセットからなる音声対話理解ベンチマーク(ADU-Bench)を提案する。
LALMの3つの一般的なシナリオ、12のスキル、9の多言語言語、および4つのあいまいさ処理のカテゴリにおけるオープンエンド音声対話能力を評価する。
特に,音声対話におけるあいまいさ処理の評価について,例えば,「Really!?」といった文の同じ意味以外の意図を表現する手法を提案する。
要約すると、ADU-BenchにはLALMの評価のための2万以上のオープンエンド音声対話が含まれている。
13個のLALMに対して行われた広範囲な実験により,既存のLALMの音声対話理解能力にはまだ改善の余地があることが判明した。
特に、数学的な記号や公式に苦労し、ロールプレイや複数の言語を解釈するといった人間の振る舞いを理解し、音色、ポーズ位置、ホモフォンといった異なる音素からの音声対話のあいまいさを扱う。
関連論文リスト
- IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Audio Dialogues: Dialogues dataset for audio and music understanding [29.550656226658962]
音声対話(Audio Dialogues)は163.8kサンプルを含むマルチターン対話データセットである。
対話に加えて、Audio Dialoguesは複数の入力オーディオを理解し比較するための質問応答ペアも備えている。
論文 参考訳(メタデータ) (2024-04-11T10:08:34Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - DialogBench: Evaluating LLMs as Human-like Dialogue Systems [16.997134341787486]
大規模言語モデル(LLM)は、命令チューニングを活用することで、新しい対話機能において画期的なブレークスルーを達成している。
本稿では,12の対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。
インストラクションチューニングはLLMの人間的類似性をある程度改善するが、ほとんどのLLMは人間的な対話システムとして改善の余地が十分にある。
論文 参考訳(メタデータ) (2023-11-03T02:59:56Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。