Fugu-MT 論文翻訳(概要): VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models

論文の概要: VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models

arxiv url: http://arxiv.org/abs/2501.04962v2
Date: Mon, 20 Jan 2025 10:38:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:18.99615
Title: VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models
Title（参考訳）: VoxEval: エンドツーエンド言語モデルの知識理解能力のベンチマーク
Authors: Wenqian Cui, Xiaoqi Jiao, Ziqiao Meng, Irwin King,
Abstract要約: 我々は、純粋に音声に基づく対話を通して知識理解を評価するために設計された、新しい音声質問応答ベンチマークであるVoxEvalを紹介する。既存のAudioQAベンチマークとは異なり、VoxEvalは質問と回答の両方の音声フォーマットを維持し、様々なオーディオ条件のモデルロバスト性を評価し、音声形式の数学的問題解決のような挑戦的な領域の評価を開拓している。
参考スコア（独自算出の注目度）: 32.086847480051084
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the growing demand for developing speech-based interaction models, end-to-end Spoken Language Models (SLMs) have emerged as a promising solution. When engaging in conversations with humans, it is essential for these models to comprehend a wide range of world knowledge. In this paper, we introduce VoxEval, a novel speech question-answering benchmark specifically designed to assess SLMs' knowledge understanding through purely speech-based interactions. Unlike existing AudioQA benchmarks, VoxEval maintains speech format for both questions and answers, evaluates model robustness across diverse audio conditions (varying timbres, audio qualities, and speaking styles), and pioneers the assessment of challenging domains like mathematical problem-solving in spoken format. Our comprehensive evaluation of recent SLMs using VoxEval reveals significant performance limitations in current models, highlighting crucial areas for future improvements. VoxEval dataset is available at: https://github.com/dreamtheater123/VoxEval
Abstract（参考訳）: 音声に基づく対話モデルの開発に対する需要が高まり,SLM(End-to-end Spoken Language Models)が有望なソリューションとして登場した。人間との会話を行う際には、これらのモデルが幅広い世界の知識を理解することが不可欠である。本稿では,SLMの知識理解を純粋に音声に基づくインタラクションを通じて評価する新しい音声質問応答ベンチマークであるVoxEvalを紹介する。既存のAudioQAベンチマークとは異なり、VoxEvalは質問と回答の両方の音声フォーマットを維持し、様々な音質(様々な音質、音声品質、話し方)にわたるモデルロバスト性を評価し、音声形式の数学的問題解決のような挑戦的な領域の評価を開拓している。 VoxEvalを用いた最近のSLMの包括的評価では、現行モデルにおける大幅な性能制限が示され、今後の改善に向けた重要な領域が浮かび上がっている。 VoxEvalデータセットは、https://github.com/dreamtheater123/VoxEvalで利用可能である。

関連論文リスト

SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文参考訳（メタデータ） (2025-07-25T15:12:06Z)
Step-Audio 2 Technical Report [108.04129284951314]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文参考訳（メタデータ） (2025-07-22T14:23:55Z)
WildSpeech-Bench: Benchmarking Audio LLMs in Natural Speech Conversation [44.17470719671929]
本稿では,実用的な音声対話における音声大言語モデル(LLM)を徹底的に評価するための新しい手法を提案する。音声シナリオに関連する実世界のチャットデータを体系的にキュレートし、話者属性や音響条件の多様性を導入し、音声固有の現象でデータセットを増強する。様々な主流音声モデルの包括的テストと詳細な分析を行い、異なる音声シナリオにおけるモデル性能の顕著な差異を明らかにした。
論文参考訳（メタデータ） (2025-06-27T03:18:45Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文参考訳（メタデータ） (2025-05-25T08:37:55Z)
Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文参考訳（メタデータ） (2025-05-12T09:04:16Z)
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context [45.56363286769136]
本稿では,音声に基づく質問を理解し,そのコンテキストを同時に聴くように設計された新しいフレームワークであるSollaを紹介する。 Sollaには、音声イベントを効果的に識別し表現するためのオーディオタグモジュールと、音声コンテンツの理解を改善するためのASR支援予測手法が組み込まれている。本稿では,音声イベント分類,音声キャプション,音声質問応答の3つのタスクを含むSA-Evalというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2025-03-19T15:34:21Z)
S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information [47.950757976473035]
パラ言語情報を用いた命令追従機能の評価を行う,新しいアリーナスタイルのS2SベンチマークであるS2S-Arenaを紹介する。 GPT-4oの優れた性能に加えて、カスケードされたASR, LLM, TTSの音声モデルは、音声2音声プロトコルにおけるテキスト・音声アライメント後に共同訓練されたモデルよりも優れる。
論文参考訳（メタデータ） (2025-03-07T02:07:00Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
URO-Bench: A Comprehensive Benchmark for End-to-End Spoken Dialogue Models [8.882948576463244]
音声対話モデル(SDM)の広範なベンチマークであるURO-Benchを提案する。 URO-BenchはS2Sベンチマークで、多言語主義、多ラウンド対話、パラ言語学の評価をカバーしている。ベンチマークは、基本トラックとプロトラックの2つの難易度に分類され、それぞれ16と20のデータセットで構成されている。
論文参考訳（メタデータ） (2025-02-25T03:31:48Z)
Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文参考訳（メタデータ） (2025-01-27T22:47:51Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。本稿では,近年のSpeechLM構築手法について概観する。
論文参考訳（メタデータ） (2024-10-01T21:48:12Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。 SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文参考訳（メタデータ） (2024-09-11T17:34:52Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。 USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文参考訳（メタデータ） (2024-02-08T14:35:09Z)
SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。 SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文参考訳（メタデータ） (2023-05-22T13:47:51Z)
Speaker-Aware BERT for Multi-Turn Response Selection in Retrieval-Based Chatbots [47.40380290055558]
話者変化情報を認識させる新しいモデルとして,話者認識BERT (SA-BERT) を提案する。絡み合った対話に対処するために,話者認識型アンタングル化戦略を提案する。
論文参考訳（メタデータ） (2020-04-07T02:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。