論文の概要: IFEval-Audio: Benchmarking Instruction-Following Capability in Audio-based Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16774v1
- Date: Thu, 22 May 2025 15:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.38768
- Title: IFEval-Audio: Benchmarking Instruction-Following Capability in Audio-based Large Language Models
- Title(参考訳): IFEval-Audio:大規模言語モデルにおける命令追跡能力のベンチマーク
- Authors: Yiming Gao, Bin Wang, Chengwei Wei, Shuo Sun, AiTi Aw,
- Abstract要約: IFEval-Audioには、6つの異なる次元にわたる280のオーディオインストラクション回答トリプルが含まれている。
各例は音声入力とテキスト命令をペアリングし、モデルが特定の構造に従う出力を生成する必要がある。
我々は、最先端のオーディオLLMを、オーディオ関連命令に従う能力に基づいてベンチマークする。
- 参考スコア(独自算出の注目度): 18.11667976818302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong instruction-following capabilities in text-based tasks. However, this ability often deteriorates in multimodal models after alignment with non-text modalities such as images or audio. While several recent efforts have investigated instruction-following performance in text and vision-language models, instruction-following in audio-based large language models remains largely unexplored. To bridge this gap, we introduce IFEval-Audio, a novel evaluation dataset designed to assess the ability to follow instructions in an audio LLM. IFEval-Audio contains 280 audio-instruction-answer triples across six diverse dimensions: Content, Capitalization, Symbol, List Structure, Length, and Format. Each example pairs an audio input with a text instruction, requiring the model to generate an output that follows a specified structure. We benchmark state-of-the-art audio LLMs on their ability to follow audio-involved instructions. The dataset is released publicly to support future research in this emerging area.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストベースのタスクにおいて強い命令追従能力を示している。
しかし、この能力は画像やオーディオなどの非テキストモダリティと整列した後、マルチモーダルモデルでは劣化することが多い。
近年,テキストモデルと視覚言語モデルにおける命令追従性能について研究されているが,音声に基づく大規模言語モデルにおける命令追従性能はほとんど解明されていない。
このギャップを埋めるために、音声LLMにおける指示に従う能力を評価するために設計された新しい評価データセットであるIFEval-Audioを導入する。
IFEval-Audioには、コンテンツ、資本化、シンボル、リスト構造、長さ、フォーマトという6つの異なる次元にまたがる280のオーディオインストラクション回答トリプルが含まれている。
各例は音声入力とテキスト命令をペアリングし、モデルが特定の構造に従う出力を生成する必要がある。
我々は、最先端のオーディオLLMを、オーディオ関連命令に従う能力に基づいてベンチマークする。
このデータセットは、この新興領域における将来の研究をサポートするために、一般公開されている。
関連論文リスト
- AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。