論文の概要: Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models
- arxiv url: http://arxiv.org/abs/2505.19037v1
- Date: Sun, 25 May 2025 08:37:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.854005
- Title: Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models
- Title(参考訳): 音声IFEval:音声認識言語モデルにおける命令追跡とカタストロフィックフォーミングの定量化
- Authors: Ke-Han Lu, Chun-Yi Kuan, Hung-yi Lee,
- Abstract要約: 本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Speech-IFeval, an evaluation framework designed to assess instruction-following capabilities and quantify catastrophic forgetting in speech-aware language models (SLMs). Recent SLMs integrate speech perception with large language models (LLMs), often degrading textual capabilities due to speech-centric training. Existing benchmarks conflate speech perception with instruction-following, hindering evaluation of these distinct skills. To address this gap, we provide a benchmark for diagnosing the instruction-following abilities of SLMs. Our findings show that most SLMs struggle with even basic instructions, performing far worse than text-based LLMs. Additionally, these models are highly sensitive to prompt variations, often yielding inconsistent and unreliable outputs. We highlight core challenges and provide insights to guide future research, emphasizing the need for evaluation beyond task-level metrics.
- Abstract(参考訳): 本稿では,音声認識言語モデル(SLM)において,命令追従能力を評価し,破滅的な忘れを定量化するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル(LLM)と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
既存のベンチマークでは、これらの異なるスキルの評価を阻害し、指示追従による音声知覚を明確化している。
このギャップに対処するために、SLMの命令追従能力の診断のためのベンチマークを提供する。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
さらに、これらのモデルは急激な変動に対して非常に敏感であり、しばしば矛盾し、信頼できない出力をもたらす。
私たちは、コア課題を強調し、将来の研究をガイドするための洞察を提供し、タスクレベルのメトリクスを超えた評価の必要性を強調します。
関連論文リスト
- Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models [8.020688053947547]
LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。
この能力は命令追従能力として知られ、様々な分野におけるLSMの使用の基礎を確立している。
我々は、LLMが命令形式文によって容易に気を散らすことができ、それによって命令理解スキルの監視に繋がる可能性があることを指摘した。
論文 参考訳(メタデータ) (2024-12-27T04:37:39Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。