論文の概要: Probabilistic adaptation of language comprehension for individual speakers: Evidence from neural oscillations
- arxiv url: http://arxiv.org/abs/2502.01299v1
- Date: Mon, 03 Feb 2025 12:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:21.018594
- Title: Probabilistic adaptation of language comprehension for individual speakers: Evidence from neural oscillations
- Title(参考訳): 個々の話者に対する言語理解の確率的適応:ニューラル振動による証拠
- Authors: Hanlin Wu, Xiaohui Rao, Zhenguang G. Cai,
- Abstract要約: ステレオタイプ非一致発話の話者の可能性に基づいて,聴取者が理解に適応するかどうかを検討する。
本研究は,話者関係に対する全体的な期待を調節する話者一般機構と,個々の話者モデルを更新する話者特化メカニズムの2つのメカニズムを明らかにする。
- 参考スコア(独自算出の注目度): 0.846600473226587
- License:
- Abstract: Listeners adapt language comprehension based on their mental representations of speakers, but how these representations are dynamically updated remains unclear. We investigated whether listeners probabilistically adapt their comprehension based on the likelihood of speakers producing stereotype-incongruent utterances. Our findings reveal two potential mechanisms: a speaker-general mechanism that adjusts overall expectations about speaker-content relationships, and a speaker-specific mechanism that updates individual speaker models. In two EEG experiments, participants heard speakers make stereotype-congruent or incongruent utterances, with incongruency base rate manipulated between blocks. In Experiment 1, speaker incongruency modulated both high-beta (21-30 Hz) and theta (4-6 Hz) oscillations: incongruent utterances decreased oscillatory power in low base rate condition but increased it in high base rate condition. The theta effect varied with listeners' openness trait: less open participants showed theta increases to speaker-incongruencies, suggesting maintenance of speaker-specific information, while more open participants showed theta decreases, indicating flexible model updating. In Experiment 2, we dissociated base rate from the target speaker by manipulating the overall base rate using an alternative non-target speaker. Only the high-beta effect persisted, showing power decrease for speaker-incongruencies in low base rate condition but no effect in high base rate condition. The high-beta oscillations might reflect the speaker-general adjustment, while theta oscillations may index the speaker-specific model updating. These findings provide evidence for how language processing is shaped by social cognition in real time.
- Abstract(参考訳): 聴取者は、話者の精神的表現に基づいて言語理解を適応させるが、これらの表現がどのように動的に更新されるかは、まだ不明である。
ステレオタイプ非一致発話の話者の可能性に基づいて,聴取者の理解度を確率的に調整するかどうかを検討した。
本研究は,話者関係に対する全体的な期待を調節する話者一般機構と,個々の話者モデルを更新する話者特化メカニズムの2つのメカニズムを明らかにする。
2つの脳波実験では、話者がブロック間で不整合ベースレートを制御してステレオタイプ・コングロレントまたは不整合発話を行うのを聞いた。
実験1では,高ベータ(21-30Hz)と4-6Hz(4-6Hz)の発振を話者不一致で変調した。
聴取者の開度特性は, 聴取者の開度特性によって異なるが, 聴取者の開度が低下し, 聴取者の不整合が増加し, 話者固有情報の維持が示唆され, 聴取者の開度が低下し, フレキシブルなモデル更新が示唆された。
実験2では, 対象話者から分離したベースレートを, 代替の非対象話者を用いて全体のベースレートを操作した。
高ベータ効果のみが持続し、低ベースレート条件では話者不一致のパワー低下を示すが、高ベースレート条件では効果は認められなかった。
高ベータ振動は話者一般調整を反映し、テータ振動は話者特化モデル更新を指標にすることができる。
これらの結果は、言語処理が社会的認知によってリアルタイムでどのように形成されるかを示す証拠となる。
関連論文リスト
- Speaker effects in spoken language comprehension [0.9514940899499753]
話者の同一性は、知覚と期待の両方に影響を与えることにより、音声言語理解に大きな影響を及ぼす。
本稿では,音響的詳細によって駆動されるボトムアップ認識に基づくプロセスと,話者モデルによって駆動されるトップダウン予測に基づくプロセスとの相互作用を特徴とする統合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-10T07:03:06Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Automatic Evaluation of Speaker Similarity [0.0]
本研究では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。
実験の結果, 話者埋め込みから話者類似度MUSHRAスコアを0.96精度で予測し, 発話レベルでは0.78ピアソンスコアまで有意な相関関係を示すことができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T11:23:16Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Improving multi-speaker TTS prosody variance with a residual encoder and
normalizing flows [9.515272632173884]
話者IDと韻律のアンタングル化は、自然性を改善し、より可変な合成を生成するために、テキストから音声へのシステムにおいて不可欠である。
本稿では,流れ正規化話者埋め込みにTacotron2のようなアーキテクチャを適用し,絡み合う問題にアプローチする新しいニューラルテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2021-06-10T14:08:42Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Speaker Re-identification with Speaker Dependent Speech Enhancement [37.33388614967888]
本稿では,音声強調と話者認識を行う新しい手法を提案する。
提案手法は,実環境における話者認識評価を目的としたVoxceleb1データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-05-15T23:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。