論文の概要: Quantifying the perceptual value of lexical and non-lexical channels in
speech
- arxiv url: http://arxiv.org/abs/2307.03534v1
- Date: Fri, 7 Jul 2023 11:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 12:39:03.766506
- Title: Quantifying the perceptual value of lexical and non-lexical channels in
speech
- Title(参考訳): 音声における語彙と非語彙の知覚値の定量化
- Authors: Sarenne Wallbridge, Peter Bell, Catherine Lai
- Abstract要約: 本稿では、制約のない語彙内容の対話における非語彙情報の価値を研究するための一般化パラダイムを提案する。
非語彙情報が今後の対話の期待に一貫した影響をもたらすことを示す。
- 参考スコア(独自算出の注目度): 10.288091965093816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is a fundamental means of communication that can be seen to provide
two channels for transmitting information: the lexical channel of which words
are said, and the non-lexical channel of how they are spoken. Both channels
shape listener expectations of upcoming communication; however, directly
quantifying their relative effect on expectations is challenging. Previous
attempts require spoken variations of lexically-equivalent dialogue turns or
conspicuous acoustic manipulations. This paper introduces a generalised
paradigm to study the value of non-lexical information in dialogue across
unconstrained lexical content. By quantifying the perceptual value of the
non-lexical channel with both accuracy and entropy reduction, we show that
non-lexical information produces a consistent effect on expectations of
upcoming dialogue: even when it leads to poorer discriminative turn judgements
than lexical content alone, it yields higher consensus among participants.
- Abstract(参考訳): 音声はコミュニケーションの基本的な手段であり、情報伝達のための2つのチャンネル、すなわち、単語が話される語彙チャネルと、それらがどのように話されるかの非語彙チャネルを提供する。
どちらのチャネルもリスナーの今後のコミュニケーションへの期待を形作るが、期待に対する相対的な影響を直接定量化することは困難である。
従来の試みでは、語彙的に等価な対話や顕著な音響操作の音声変化が必要であった。
本稿では,非制約語彙コンテンツ間の対話における非語彙情報の価値を研究するための一般化パラダイムを提案する。
非語彙経路の知覚的価値を精度とエントロピー低減の両方で定量化することにより、非語彙情報は今後の対話の期待に対して一貫した効果をもたらすことが示される。
関連論文リスト
- Disentangling segmental and prosodic factors to non-native speech comprehensibility [11.098498920630782]
現在のアクセント変換システムは、非ネイティブアクセントの2つの主要な源である分節的特徴と韻律的特徴を分離しない。
本稿では,アクセントから声質を分離するACシステムを提案する。
本研究では,非母語音声の知覚的理解度に係わる部分的特徴と韻律の個人的寄与を定量化するために,知覚的聴取テストを実施している。
論文 参考訳(メタデータ) (2024-08-20T16:43:55Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Cognitive Semantic Communication Systems Driven by Knowledge Graph:
Principle, Implementation, and Performance Evaluation [74.38561925376996]
単一ユーザと複数ユーザのコミュニケーションシナリオに対して,認知意味コミュニケーションフレームワークが2つ提案されている。
知識グラフから推論規則をマイニングすることにより,効果的な意味補正アルゴリズムを提案する。
マルチユーザ認知型セマンティックコミュニケーションシステムにおいて,異なるユーザのメッセージを識別するために,メッセージ復元アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:01:43Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Modeling speech recognition and synthesis simultaneously: Encoding and
decoding lexical and sublexical semantic information into speech with no
direct access to speech data [0.0]
我々は,非教師付き語彙学習において最も困難な目的である,辞書項目にユニークな表現を割り当てることを学ぶ教師なしネットワークを紹介した。
語彙学習に賛成する強い証拠が現れる。
生産と知覚の原則を組み合わせたアーキテクチャは、実際のトレーニングデータにアクセスすることなく、教師なしの方法で生の音響データからユニークな情報を復号することができる。
論文 参考訳(メタデータ) (2022-03-22T06:04:34Z) - It's not what you said, it's how you said it: discriminative perception
of speech as a multichannel communication system [13.150821247850876]
人は、その言葉の語彙チャンネルと、その言葉の言葉の非語彙チャンネルを用いて、音声による対話を通じて、非常に効果的に情報を伝達する。
本研究は,音声コミュニケーションの人間知覚を,これらのチャネルをまたいで情報がどのようにエンコードされるのかをよりよく理解するための手段として検討するものである。
対話における真の発話と、同じ語彙内容の他の文脈から抽出された発話とを、リスナーが区別できるかどうかを、新しい行動タスクテストで検証する。
論文 参考訳(メタデータ) (2021-05-01T14:30:30Z) - Fairness in Rating Prediction by Awareness of Verbal and Gesture Quality
of Public Speeches [5.729787815551408]
私たちは、口頭領域と非言語領域の両方でトークの質を定量化する新しいヘテロジニティメトリック、HEMを公式化します。
HEMとTEDトークの視聴者による評価との間には興味深い関係があることが示されている。
我々は,HEMの指標をニューラルネットワークの損失関数に組み込んで,人種や性別に関する評価予測における不公平さを低減することを目的とする。
論文 参考訳(メタデータ) (2020-12-11T06:36:55Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。