論文の概要: Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper
- arxiv url: http://arxiv.org/abs/2406.05806v2
- Date: Tue, 9 Jul 2024 17:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 23:01:54.839051
- Title: Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper
- Title(参考訳): プロンプトは本当にプロンプトか? ウィスパーの能力を理解するプロンプトを探る
- Authors: Chih-Kai Yang, Kuan-Po Huang, Hung-yi Lee,
- Abstract要約: 本研究は,ハイパフォーマンス音声認識モデルであるWhisperとプロンプトの情報がどのように相互作用するかを考察する。
結果から,Whisperは人為的に文章のプロンプトを理解できない可能性が示唆された。
また、英語のプロンプトが両方の言語のデータセットで一般的にマンダリンよりも優れていることも指摘されている。
- 参考スコア(独自算出の注目度): 51.12146889808824
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This research explores how the information of prompts interacts with the high-performing speech recognition model, Whisper. We compare its performances when prompted by prompts with correct information and those corrupted with incorrect information. Our results unexpectedly show that Whisper may not understand the textual prompts in a human-expected way. Additionally, we find that performance improvement is not guaranteed even with stronger adherence to the topic information in textual prompts. It is also noted that English prompts generally outperform Mandarin ones on datasets of both languages, likely due to differences in training data distributions for these languages despite the mismatch with pre-training scenarios. Conversely, we discover that Whisper exhibits awareness of misleading information in language tokens by ignoring incorrect language tokens and focusing on the correct ones. In sum, We raise insightful questions about Whisper's prompt understanding and reveal its counter-intuitive behaviors. We encourage further studies.
- Abstract(参考訳): 本研究は,ハイパフォーマンス音声認識モデルであるWhisperとプロンプトの情報がどのように相互作用するかを考察する。
我々は、正しい情報を持つプロンプトと誤った情報を持つプロンプトによるパフォーマンスの比較を行う。
結果から,Whisperは人為的に文章のプロンプトを理解できない可能性が示唆された。
さらに,テキストのプロンプトでトピック情報に強く依存しても,性能改善は保証されないことがわかった。
また、英語のプロンプトは、トレーニング前のシナリオとミスマッチしているにも関わらず、これらの言語のトレーニングデータ分布が異なるため、両方の言語のデータセットで一般的にマンダリンのプロンプトを上回っていることも指摘されている。
逆に,不正確な言語トークンを無視し,正しい言語トークンに注目することで,Whisperが言語トークンの誤解を招く情報を認識していることが判明した。
要約すると、我々はウィスパーの素早い理解と反直感的行動について洞察に富んだ疑問を提起する。
我々はさらなる研究を奨励する。
関連論文リスト
- Dissecting Paraphrases: The Impact of Prompt Syntax and supplementary Information on Knowledge Retrieval from Pretrained Language Models [8.588056811772693]
ConPARE-LAMAは、3400万の異なるプロンプトからなるプローブで、最小限のパラフレーズ間での比較を容易にする。
ConPARE-LAMAは, PLMの知識検索性能に対する統語的形態や意味情報の独立的な影響についての洞察を可能にする。
論文 参考訳(メタデータ) (2024-04-02T14:35:08Z) - Do Pre-Trained Language Models Detect and Understand Semantic Underspecification? Ask the DUST! [4.1970767174840455]
本研究では,事前訓練された言語モデル(LM)が不特定文を正しく識別し,解釈するかどうかを検討する。
実験の結果,不特定文の解釈においては,不特定文の理論的説明が予測する内容とは対照的に,不確実性はほとんど認められなかった。
論文 参考訳(メタデータ) (2024-02-19T19:49:29Z) - Enhancing expressivity transfer in textless speech-to-speech translation [0.0]
既存の最先端システムは、様々な言語で正確に表現力の取得と転送に関して不足している。
本研究では,個別音声単位レベルで動作し,多言語感情の埋め込みを利用する新しい手法を提案する。
対象言語における音声単位のピッチと持続時間を効果的に予測するために,これらの埋め込みがどのように使用できるかを示す。
論文 参考訳(メタデータ) (2023-10-11T08:07:22Z) - Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文 参考訳(メタデータ) (2023-10-06T10:22:51Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - What BERT Based Language Models Learn in Spoken Transcripts: An
Empirical Study [6.696983725360809]
言語モデル(LM)は、音声言語理解(SLU)を含む様々なタスクでユビキタスに活用されている。
本研究では、SLUを話者(分散、一時停止、オーバートーク)、チャンネル(会話型、ターンタスク)、ASR(挿入、削除、置換)の3つの代表的な特性に分解することを提案する。
本稿では,BERT に基づく言語モデル (BERT, RoBERTa) を探索し,言語手がかりがない場合に多言語特性を理解する能力について検討する。
論文 参考訳(メタデータ) (2021-09-19T11:23:50Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。