論文の概要: Do What I Say: A Spoken Prompt Dataset for Instruction-Following
- arxiv url: http://arxiv.org/abs/2603.09881v1
- Date: Tue, 10 Mar 2026 16:39:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.458444
- Title: Do What I Say: A Spoken Prompt Dataset for Instruction-Following
- Title(参考訳): 私が言いたいことは、インストラクションフォローのための散在するプロンプトデータセット
- Authors: Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues,
- Abstract要約: DoWhatISay (DOWIS) は、人間の音声と文字によるプロンプトのデータセットである。
5つのスタイルで、タスク言語ペアごとに10のプロンプト変種を提供する。
DOWISを用いて最先端のSLLMをベンチマークし、即時モダリティ、スタイル、言語、タスクタイプ間の相互作用を分析する。
- 参考スコア(独自算出の注目度): 64.72383858691795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.
- Abstract(参考訳): 音声大言語モデル(SLLM)は急速に拡張され、幅広いタスクをサポートしている。
これらのモデルは典型的にはテキストプロンプトを用いて評価されるが、これはユーザーが音声と対話する現実世界のシナリオを反映しない可能性がある。
このギャップに対処するために,既存のベンチマークと組み合わせて音声指示条件下でのSLLMの現実的な評価を行うために,人間録音音声の多言語データセットであるDoWhatISay(DOWIS)を紹介した。
9つのタスクと11の言語にまたがって、5つのスタイルでタスク言語ペアごとに10のプロンプト変種を提供する。
DOWISを用いて最先端のSLLMをベンチマークし、即時モダリティ、スタイル、言語、タスクタイプ間の相互作用を分析する。
結果から,テキストのプロンプトは音声のプロンプトより一貫して優れており,特に低リソースおよび言語間設定において顕著であることがわかった。
音声出力のあるタスクのみ、音声プロンプトはギャップを埋め、SLLM評価における音声ベースのプロンプトの必要性を強調する。
関連論文リスト
- TELEVAL: A Dynamic Benchmark Designed for Spoken Language Models in Chinese Interactive Scenarios [47.08170350061827]
音声言語モデル(SLM)は近年急速に進歩し、性能評価のための多数のベンチマークが開発されている。
既存のベンチマークのほとんどは、SLMが大規模言語モデル(LLM)と同等の複雑なタスクを実行できるかどうかを評価することに重点を置いている。
リアルな中国語対話環境において,SLMの有効性を対話型エージェントとして評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-24T03:23:55Z) - Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。
提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Helping Language Models Learn More: Multi-dimensional Task Prompt for
Few-shot Tuning [36.14688633670085]
本稿では,タスク関連オブジェクト,要約,タスク記述情報に基づく多次元タスクプロンプト学習手法MTPromptを提案する。
提案するMTPromptは,適切なプロンプトを自動構築し,検索することで,いくつかのサンプル設定と5つの異なるデータセットに対して最適な結果が得られる。
論文 参考訳(メタデータ) (2023-12-13T10:00:44Z) - The language of prompting: What linguistic properties make a prompt
successful? [13.034603322224548]
LLMは、多くのNLPタスクにおいて、印象的なゼロショットまたは少数ショットのパフォーマンスを達成するよう促すことができる。
しかし、プロンプトの言語的特性がタスクのパフォーマンスとどのように関連しているかについての体系的な理解はいまだに欠けている。
モーメント,テンション,アスペクト,モダリティなどの文法的性質と,同義語の使用による語彙・意味の変化について検討する。
論文 参考訳(メタデータ) (2023-11-03T15:03:36Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。