論文の概要: Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models
- arxiv url: http://arxiv.org/abs/2505.19037v1
- Date: Sun, 25 May 2025 08:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.854005
- Title: Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models
- Title(参考訳): 音声IFEval:音声認識言語モデルにおける命令追跡とカタストロフィックフォーミングの定量化
- Authors: Ke-Han Lu, Chun-Yi Kuan, Hung-yi Lee,
- Abstract要約: 本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Speech-IFeval, an evaluation framework designed to assess instruction-following capabilities and quantify catastrophic forgetting in speech-aware language models (SLMs). Recent SLMs integrate speech perception with large language models (LLMs), often degrading textual capabilities due to speech-centric training. Existing benchmarks conflate speech perception with instruction-following, hindering evaluation of these distinct skills. To address this gap, we provide a benchmark for diagnosing the instruction-following abilities of SLMs. Our findings show that most SLMs struggle with even basic instructions, performing far worse than text-based LLMs. Additionally, these models are highly sensitive to prompt variations, often yielding inconsistent and unreliable outputs. We highlight core challenges and provide insights to guide future research, emphasizing the need for evaluation beyond task-level metrics.
- Abstract(参考訳): 本稿では,音声認識言語モデル(SLM)において,命令追従能力を評価し,破滅的な忘れを定量化するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル(LLM)と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
既存のベンチマークでは、これらの異なるスキルの評価を阻害し、指示追従による音声知覚を明確化している。
このギャップに対処するために、SLMの命令追従能力の診断のためのベンチマークを提供する。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
さらに、これらのモデルは急激な変動に対して非常に敏感であり、しばしば矛盾し、信頼できない出力をもたらす。
私たちは、コア課題を強調し、将来の研究をガイドするための洞察を提供し、タスクレベルのメトリクスを超えた評価の必要性を強調します。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - WildSpeech-Bench: Benchmarking Audio LLMs in Natural Speech Conversation [44.17470719671929]
本稿では,実用的な音声対話における音声大言語モデル(LLM)を徹底的に評価するための新しい手法を提案する。
音声シナリオに関連する実世界のチャットデータを体系的にキュレートし、話者属性や音響条件の多様性を導入し、音声固有の現象でデータセットを増強する。
様々な主流音声モデルの包括的テストと詳細な分析を行い、異なる音声シナリオにおけるモデル性能の顕著な差異を明らかにした。
論文 参考訳(メタデータ) (2025-06-27T03:18:45Z) - Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models [8.020688053947547]
LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。
この能力は命令追従能力として知られ、様々な分野におけるLSMの使用の基礎を確立している。
我々は、LLMが命令形式文によって容易に気を散らすことができ、それによって命令理解スキルの監視に繋がる可能性があることを指摘した。
論文 参考訳(メタデータ) (2024-12-27T04:37:39Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。