論文の概要: It's not what you said, it's how you said it: discriminative perception
of speech as a multichannel communication system
- arxiv url: http://arxiv.org/abs/2105.00260v1
- Date: Sat, 1 May 2021 14:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:08:19.513882
- Title: It's not what you said, it's how you said it: discriminative perception
of speech as a multichannel communication system
- Title(参考訳): マルチチャネル通信システムとしての音声の差別的知覚
- Authors: Sarenne Wallbridge, Peter Bell, Catherine Lai
- Abstract要約: 人は、その言葉の語彙チャンネルと、その言葉の言葉の非語彙チャンネルを用いて、音声による対話を通じて、非常に効果的に情報を伝達する。
本研究は,音声コミュニケーションの人間知覚を,これらのチャネルをまたいで情報がどのようにエンコードされるのかをよりよく理解するための手段として検討するものである。
対話における真の発話と、同じ語彙内容の他の文脈から抽出された発話とを、リスナーが区別できるかどうかを、新しい行動タスクテストで検証する。
- 参考スコア(独自算出の注目度): 13.150821247850876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People convey information extremely effectively through spoken interaction
using multiple channels of information transmission: the lexical channel of
what is said, and the non-lexical channel of how it is said. We propose
studying human perception of spoken communication as a means to better
understand how information is encoded across these channels, focusing on the
question 'What characteristics of communicative context affect listener's
expectations of speech?'. To investigate this, we present a novel behavioural
task testing whether listeners can discriminate between the true utterance in a
dialogue and utterances sampled from other contexts with the same lexical
content. We characterize how perception - and subsequent discriminative
capability - is affected by different degrees of additional contextual
information across both the lexical and non-lexical channel of speech. Results
demonstrate that people can effectively discriminate between different prosodic
realisations, that non-lexical context is informative, and that this channel
provides more salient information than the lexical channel, highlighting the
importance of the non-lexical channel in spoken interaction.
- Abstract(参考訳): 情報伝達の複数のチャンネル、つまり、その言葉の語彙チャンネルと、その言葉の言葉の非語彙チャンネルを用いて、人々は非常に効果的に情報を伝達する。
本稿では,これらのチャネル間での情報符号化の理解を深める手段として,音声コミュニケーションの人間の知覚について検討し,「コミュニケーションコンテキストの特徴が聞き手の音声に対する期待にどのような影響を及ぼすか」という問いに焦点をあてる。
そこで本研究では,対話中の真の発話と,同じ語彙内容の他の文脈からサンプリングされた発話とを,聞き手が判別できるのかを,新たな行動課題として検証する。
我々は,知覚とその後の識別能力が,語彙と非語彙の両方にまたがる追加の文脈情報によってどのように影響されるかを特徴付ける。
結果は,非語彙的文脈が情報的であること,このチャネルが語彙的チャネルよりもより健全な情報を提供し,非語彙的チャネルが音声対話において重要であることを明らかにする。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Disentangling segmental and prosodic factors to non-native speech comprehensibility [11.098498920630782]
現在のアクセント変換システムは、非ネイティブアクセントの2つの主要な源である分節的特徴と韻律的特徴を分離しない。
本稿では,アクセントから声質を分離するACシステムを提案する。
本研究では,非母語音声の知覚的理解度に係わる部分的特徴と韻律の個人的寄与を定量化するために,知覚的聴取テストを実施している。
論文 参考訳(メタデータ) (2024-08-20T16:43:55Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Quantifying the perceptual value of lexical and non-lexical channels in
speech [10.288091965093816]
本稿では、制約のない語彙内容の対話における非語彙情報の価値を研究するための一般化パラダイムを提案する。
非語彙情報が今後の対話の期待に一貫した影響をもたらすことを示す。
論文 参考訳(メタデータ) (2023-07-07T11:44:23Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Disentangling the Impacts of Language and Channel Variability on Speech
Separation Networks [25.662237869109433]
話者、コンテンツ、チャンネル、環境などの要因による訓練/テスト状況のドメインミスマッチは、音声分離にとって深刻な問題である。
本研究では,様々な実験のために複数のデータセットを作成し,異なる言語の影響は,異なるチャネルの影響と比較して無視できるほど小さいことを示した。
論文 参考訳(メタデータ) (2022-03-30T04:07:23Z) - E-ffective: A Visual Analytic System for Exploring the Emotion and
Effectiveness of Inspirational Speeches [57.279044079196105]
E-ffective(エフェクティブ)は、音声の専門家や初心者が、音声要因の役割と効果的な音声への貢献の両方を分析することのできる視覚分析システムである。
E-spiral(音声の感情の変化を視覚的にコンパクトに表現する)とE-script(音声コンテンツを主要な音声配信情報に結びつける)の2つの新しい可視化技術がある。
論文 参考訳(メタデータ) (2021-10-28T06:14:27Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Fairness in Rating Prediction by Awareness of Verbal and Gesture Quality
of Public Speeches [5.729787815551408]
私たちは、口頭領域と非言語領域の両方でトークの質を定量化する新しいヘテロジニティメトリック、HEMを公式化します。
HEMとTEDトークの視聴者による評価との間には興味深い関係があることが示されている。
我々は,HEMの指標をニューラルネットワークの損失関数に組み込んで,人種や性別に関する評価予測における不公平さを低減することを目的とする。
論文 参考訳(メタデータ) (2020-12-11T06:36:55Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。