論文の概要: Language-agnostic, automated assessment of listeners' speech recall using large language models
- arxiv url: http://arxiv.org/abs/2503.01045v1
- Date: Sun, 02 Mar 2025 22:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:27.144770
- Title: Language-agnostic, automated assessment of listeners' speech recall using large language models
- Title(参考訳): 大規模言語モデルを用いた聞き手の音声リコールの言語に依存しない自動評価
- Authors: Björn Herrmann,
- Abstract要約: 本研究は、英語母語話者と10言語母語話者の現代大言語モデル(LLM)を活用する。
参加者は母国語の短い話(静かで明快で、バブルノイズで)を聴き、自由に呼び戻した。
LLMは、意味的類似性分析によるエンジニアリングを促進させ、音声のリコールを評価することで、時間順、プライマリシー/レシーシ、バックグラウンドノイズの既知の影響に対する感受性を明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Speech-comprehension difficulties are common among older people. Standard speech tests do not fully capture such difficulties because the tests poorly resemble the context-rich, story-like nature of ongoing conversation and are typically available only in a country's dominant/official language (e.g., English), leading to inaccurate scores for native speakers of other languages. Assessments for naturalistic, story speech in multiple languages require accurate, time-efficient scoring. The current research leverages modern large language models (LLMs) in native English speakers and native speakers of 10 other languages to automate the generation of high-quality, spoken stories and scoring of speech recall in different languages. Participants listened to and freely recalled short stories (in quiet/clear and in babble noise) in their native language. LLM text-embeddings and LLM prompt engineering with semantic similarity analyses to score speech recall revealed sensitivity to known effects of temporal order, primacy/recency, and background noise, and high similarity of recall scores across languages. The work overcomes limitations associated with simple speech materials and testing of closed native-speaker groups because recall data of varying length and details can be mapped across languages with high accuracy. The full automation of speech generation and recall scoring provides an important step towards comprehension assessments of naturalistic speech with clinical applicability.
- Abstract(参考訳): 高齢者には音声理解の難しさが一般的である。
標準的な音声テストは、現在進行中の会話の文脈に富んでいるストーリーのような性質にあまり似ていないため、そのような困難を十分に捉えていないため、一般的には、国の支配的/公用語(例えば英語)でのみ利用可能であり、他の言語の母語話者のスコアが不正確な結果となる。
複数の言語における自然主義的ストーリースピーチの評価には、正確で時間効率のよいスコアが必要である。
現在の研究は、英語母語話者と他の10言語母語話者の近代的な大規模言語モデル(LLM)を活用して、高品質な話し言葉の生成と異なる言語での音声リコールのスコアを自動化している。
参加者は母国語の短い話(静かで明快で、バブルノイズで)を聴き、自由に呼び戻した。
LLMのテキスト埋め込みとLLMは、意味的類似性分析によるエンジニアリングを促進させ、音声のリコールを評価することで、時間順、プライマリシー/レシーバシー、バックグラウンドノイズの既知の影響に対する感受性、言語間でのリコールスコアの高い類似性を明らかにした。
この研究は、様々な長さと詳細のリコールデータを高精度に言語間でマッピングできるため、単純な音声材料や閉母語話者グループのテストに関連する制限を克服する。
音声生成とリコールスコアリングの完全自動化は、臨床応用性のある自然主義音声の理解への重要なステップとなる。
関連論文リスト
- Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。
新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Automatic Spoken Language Identification using a Time-Delay Neural
Network [0.0]
アラビア語、スペイン語、フランス語、トルコ語を区別するために言語識別システムが作られた。
既存の多言語データセットを使用して、一連の音響モデルのトレーニングを行った。
このシステムは、カスタム多言語言語モデルと特殊発音辞書を備えていた。
論文 参考訳(メタデータ) (2022-05-19T13:47:48Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。