論文の概要: Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2412.05167v1
- Date: Fri, 06 Dec 2024 16:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 22:41:41.194574
- Title: Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models
- Title(参考訳): 大規模音声言語モデルのためのオープンエンド音声対話理解のベンチマーク
- Authors: Kuofeng Gao, Shu-Tao Xia, Ke Xu, Philip Torr, Jindong Gu,
- Abstract要約: LALM(Large Audio-Language Models)は、LALMと人間間の音声言語を直接交換する音声対話機能を持つ。
GPT-4oのような最近の進歩により、LALMは人との前後の音声対話を可能にしている。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
- 参考スコア(独自算出の注目度): 58.43486430996411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) have unclocked audio dialogue capabilities, where audio dialogues are a direct exchange of spoken language between LALMs and humans. Recent advances, such as GPT-4o, have enabled LALMs in back-and-forth audio dialogues with humans. This progression not only underscores the potential of LALMs but also broadens their applicability across a wide range of practical scenarios supported by audio dialogues. However, given these advancements, a comprehensive benchmark to evaluate the performance of LALMs in the open-ended audio dialogue understanding remains absent currently. To address this gap, we propose an Audio Dialogue Understanding Benchmark (ADU-Bench), which consists of 4 benchmark datasets. They assess the open-ended audio dialogue ability for LALMs in 3 general scenarios, 12 skills, 9 multilingual languages, and 4 categories of ambiguity handling. Notably, we firstly propose the evaluation of ambiguity handling in audio dialogues that expresses different intentions beyond the same literal meaning of sentences, e.g., "Really!?" with different intonations. In summary, ADU-Bench includes over 20,000 open-ended audio dialogues for the assessment of LALMs. Through extensive experiments conducted on 13 LALMs, our analysis reveals that there is still considerable room for improvement in the audio dialogue understanding abilities of existing LALMs. In particular, they struggle with mathematical symbols and formulas, understanding human behavior such as roleplay, comprehending multiple languages, and handling audio dialogue ambiguities from different phonetic elements, such as intonations, pause positions, and homophones.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、LALMと人間間の音声言語を直接交換する音声対話機能を持つ。
GPT-4oのような最近の進歩により、LALMは人との前後の音声対話を可能にしている。
この進歩は、LALMの可能性を浮き彫りにするだけでなく、音声対話によってサポートされる幅広い実践シナリオにも適用範囲を広げる。
しかし、これらの進歩を踏まえると、オープンエンド音声対話理解におけるLALMの性能を評価するための総合的なベンチマークは、まだ残っていない。
このギャップを解決するために,4つのベンチマークデータセットからなる音声対話理解ベンチマーク(ADU-Bench)を提案する。
LALMの3つの一般的なシナリオ、12のスキル、9の多言語言語、および4つのあいまいさ処理のカテゴリにおけるオープンエンド音声対話能力を評価する。
特に,音声対話におけるあいまいさ処理の評価について,例えば,「Really!?」といった文の同じ意味以外の意図を表現する手法を提案する。
要約すると、ADU-BenchにはLALMの評価のための2万以上のオープンエンド音声対話が含まれている。
13個のLALMに対して行われた広範囲な実験により,既存のLALMの音声対話理解能力にはまだ改善の余地があることが判明した。
特に、数学的な記号や公式に苦労し、ロールプレイや複数の言語を解釈するといった人間の振る舞いを理解し、音色、ポーズ位置、ホモフォンといった異なる音素からの音声対話のあいまいさを扱う。
関連論文リスト
- Audio-Aware Large Language Models as Judges for Speaking Styles [123.36224336701237]
音声認識型大言語モデル(ALLM)を自動判断器として用いて音声の話し方を評価する。
4つの音声言語モデル(SLM)を用いて2つのタスクを完了し、人間とALMを用いてSLMの応答を判断する。
以上の結果から,現在のSLM,GPT-4o-audioでさえも,発話スタイルの制御や自然な対話生成に改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2025-06-06T11:05:48Z) - SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information [44.99833362998488]
大規模音声言語モデル(LALM)は、音声、音声などにおけるマルチモーダル理解によって、大きな言語モデルを拡張する。
音声および音声処理タスクにおける彼らのパフォーマンスは広範囲に研究されているが、その推論能力はいまだに未解明である。
音声情報と音声情報に基づいて,LALMのマルチホップ推論を評価するベンチマークであるSAkuraを紹介する。
その結果,LALMは,関連情報を正しく抽出しても,マルチホップ推論のための音声/音声表現の統合に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-19T15:20:32Z) - BLAB: Brutally Long Audio Bench [90.20616799311578]
Brutally Long Audio Bench (BLAB) は、音像定位、時間推定、感情、計数タスクについて、音声のLMを評価するロングフォームオーディオベンチマークである。
BLABは833時間以上の多様なフル長の音声クリップで構成されており、それぞれに人間の注釈付き、テキストベースの自然言語の質問と回答が組み合わされている。
BLAB 上で6つのオープンソースおよびプロプライエタリなオーディオ LM を評価し,Gemini 2.0 Pro や GPT-4o などの先進的なモデルを含む,すべてのタスクが苦労していることを確認した。
論文 参考訳(メタデータ) (2025-05-05T22:28:53Z) - KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus [69.46707346122113]
本稿では,人間間ビデオ駆動型多言語混在型対話コーパスを提案する。
KwaiChatのコーパスには合計93,209の動画と246,080の対話があり、4つの対話タイプ、30のドメイン、4つの言語、13のトピックが含まれている。
KwaiChat上での 7 つの異なる LLM の解析により、GPT-4o が最高の性能を発揮するが、この状況では性能が良くないことが明らかとなった。
論文 参考訳(メタデータ) (2025-03-10T04:05:38Z) - SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation [56.683846056788326]
本稿では,自発音声対話gEnerationのためのSLMとLLMの統合を提案する。
本研究では,テキスト対話を音素シーケンスに変換し,音素の持続時間を予測するために2tower変換器を用いた継続時間予測手法を提案する。
Fisherデータセットを用いた実験結果から,本システムは高意味的コヒーレンスを維持しつつ,自然な音声対話を生成可能であることが示された。
論文 参考訳(メタデータ) (2025-01-01T11:11:07Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Audio Dialogues: Dialogues dataset for audio and music understanding [29.550656226658962]
音声対話(Audio Dialogues)は163.8kサンプルを含むマルチターン対話データセットである。
対話に加えて、Audio Dialoguesは複数の入力オーディオを理解し比較するための質問応答ペアも備えている。
論文 参考訳(メタデータ) (2024-04-11T10:08:34Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - DialogBench: Evaluating LLMs as Human-like Dialogue Systems [16.997134341787486]
大規模言語モデル(LLM)は、命令チューニングを活用することで、新しい対話機能において画期的なブレークスルーを達成している。
本稿では,12の対話タスクを含む対話評価ベンチマークであるDialogBenchを提案する。
インストラクションチューニングはLLMの人間的類似性をある程度改善するが、ほとんどのLLMは人間的な対話システムとして改善の余地が十分にある。
論文 参考訳(メタデータ) (2023-11-03T02:59:56Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。