論文の概要: Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It?
- arxiv url: http://arxiv.org/abs/2408.04029v1
- Date: Wed, 7 Aug 2024 18:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:29:51.388973
- Title: Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It?
- Title(参考訳): 騒音における人間の音声知覚:大言語モデルではそれを改善するために言い換えられるか?
- Authors: Anupama Chingacham, Miaoran Zhang, Vera Demberg, Dietrich Klakow,
- Abstract要約: LLM(Large Language Models)は、形式性などのスタイル属性を変換することで、形式的あるいは非公式なテキストを生成することができる。
本研究は,騒音における人間の発話知覚を改善するために,音響的に理解可能なパラフレーズを生成する新しいタスクにおいて,LLMを評価するための最初の研究である。
提案手法は,バブルノイズを伴う聴取条件において,信号-雑音比(SNR)-5dBで高い歪みを呈する発話を言い換えることにより,人間の音声知覚の40%の相対的な改善をもたらした。
- 参考スコア(独自算出の注目度): 26.835947209927273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can generate text by transferring style attributes like formality resulting in formal or informal text. However, instructing LLMs to generate text that when spoken, is more intelligible in an acoustically difficult environment, is an under-explored topic. We conduct the first study to evaluate LLMs on a novel task of generating acoustically intelligible paraphrases for better human speech perception in noise. Our experiments in English demonstrated that with standard prompting, LLMs struggle to control the non-textual attribute, i.e., acoustic intelligibility, while efficiently capturing the desired textual attributes like semantic equivalence. To remedy this issue, we propose a simple prompting approach, prompt-and-select, which generates paraphrases by decoupling the desired textual and non-textual attributes in the text generation pipeline. Our approach resulted in a 40% relative improvement in human speech perception, by paraphrasing utterances that are highly distorted in a listening condition with babble noise at a signal-to-noise ratio (SNR) -5 dB. This study reveals the limitation of LLMs in capturing non-textual attributes, and our proposed method showcases the potential of using LLMs for better human speech perception in noise.
- Abstract(参考訳): LLM(Large Language Models)は、形式性などのスタイル属性を変換することで、形式的あるいは非公式なテキストを生成することができる。
しかし、LLMに音声のテキストを生成するように指示することは、音響的に困難な環境では、より理解しにくい。
本研究は,騒音における人間の発話知覚を改善するために,音響的に理解可能なパラフレーズを生成する新しいタスクにおいて,LLMを評価するための最初の研究である。
我々の英語における実験では、LLMは、標準的なプロンプトによって、意味的等価性のような所望のテキスト属性を効率的に取得しながら、非テキスト属性、すなわち音響的不明瞭性を制御するのに苦労することを示した。
そこで本研究では,テキスト生成パイプラインにおいて,所望のテキスト属性と非テキスト属性を分離してパラフレーズを生成する,簡易なプロンプト・アンド・セレクション手法であるプロンプト・アンド・セレクションを提案する。
提案手法は,バブルノイズを伴う聴取条件において,信号-雑音比(SNR)-5dBで高い歪みを呈する発話を言い換えることにより,人間の音声知覚の40%の相対的な改善をもたらした。
本研究は,非テクスチャ属性の捕捉におけるLLMの限界を明らかにするとともに,LLMを雑音の人間の音声知覚に活用する可能性を示す。
関連論文リスト
- IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Speak While You Think: Streaming Speech Synthesis During Text Generation [13.964169328257233]
大きな言語モデル(LLM)は印象的な能力を示しているが、これらのモデルとの相互作用は主にテキストで容易にできる。
LLM2Speechは、LLMによってテキストが生成されている間に音声を合成するアーキテクチャであり、遅延の大幅な低減をもたらす。
論文 参考訳(メタデータ) (2023-09-20T11:00:15Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。