論文の概要: Towards an Interpretable Representation of Speaker Identity via
Perceptual Voice Qualities
- arxiv url: http://arxiv.org/abs/2310.02497v1
- Date: Wed, 4 Oct 2023 00:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:12:38.733193
- Title: Towards an Interpretable Representation of Speaker Identity via
Perceptual Voice Qualities
- Title(参考訳): 知覚音声品質による話者識別の解釈的表現に向けて
- Authors: Robin Netzorg, Bohan Yu, Andrea Guzman, Peter Wu, Luna McNulty, Gopala
Anumanchipalli
- Abstract要約: 知覚音声品質(PQ)に基づく話者識別の可能な解釈可能な表現を提案する。
事前の信念とは対照的に、これらのPQは非専門家のアンサンブルによって可聴性を示す。
- 参考スコア(独自算出の注目度): 4.95865031722089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike other data modalities such as text and vision, speech does not lend
itself to easy interpretation. While lay people can understand how to describe
an image or sentence via perception, non-expert descriptions of speech often
end at high-level demographic information, such as gender or age. In this
paper, we propose a possible interpretable representation of speaker identity
based on perceptual voice qualities (PQs). By adding gendered PQs to the
pathology-focused Consensus Auditory-Perceptual Evaluation of Voice (CAPE-V)
protocol, our PQ-based approach provides a perceptual latent space of the
character of adult voices that is an intermediary of abstraction between
high-level demographics and low-level acoustic, physical, or learned
representations. Contrary to prior belief, we demonstrate that these PQs are
hearable by ensembles of non-experts, and further demonstrate that the
information encoded in a PQ-based representation is predictable by various
speech representations.
- Abstract(参考訳): テキストや視覚といった他のデータモダリティとは異なり、音声は解釈が容易ではない。
素人は知覚を通じて画像や文の表現の仕方を理解できるが、専門的でない言葉の記述はしばしば、性別や年齢といった高水準の人口統計情報で終わる。
本稿では,知覚的声質(perceptual voice quality, pqs)に基づく話者識別の解釈可能な表現を提案する。
音声(cape-v)プロトコルの病理中心のコンセンサスによる聴覚知覚評価にジェンダー化されたpqを追加することで、我々のpqベースのアプローチは、高レベル層と低レベルの音響、物理、あるいは学習された表現の間の抽象の中間である成人音声の性格の知覚的潜在空間を提供する。
従来の信念とは対照的に、これらのPQは非専門家のアンサンブルによって聴取可能であることを示し、さらに、PQベースの表現に符号化された情報が様々な音声表現によって予測可能であることを示す。
関連論文リスト
- Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology [1.7126708168238125]
トランスフェミニンの性別確認音声教師は、話者のアイデンティティに関する現在の理解を損なう音声に対して、ユニークな視点を持っている。
VVD(Versatile Voice dataset)は,ジェンダー付き軸に沿って声を変更する3人の話者の集合体である。
論文 参考訳(メタデータ) (2024-07-09T21:19:49Z) - Talk With Human-like Agents: Empathetic Dialogue Through Perceptible Acoustic Reception and Reaction [23.115506530649988]
PerceptiveAgentは、より深い意味またはより微妙な意味を識別するために設計された共感的マルチモーダル対話システムである。
PerceptiveAgentは入力音声から音響情報を知覚し、自然言語で記述された話し方に基づいて共感応答を生成する。
論文 参考訳(メタデータ) (2024-06-18T15:19:51Z) - Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。
本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文 参考訳(メタデータ) (2024-06-14T20:07:21Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Adversarial Disentanglement of Speaker Representation for
Attribute-Driven Privacy Preservation [17.344080729609026]
話者音声表現における属性駆動プライバシー保存の概念について紹介する。
これにより、悪意のあるインターセプターやアプリケーションプロバイダに1つ以上の個人的な側面を隠すことができる。
本稿では,話者属性の音声表現に絡み合った逆自動符号化手法を提案し,その隠蔽を可能にする。
論文 参考訳(メタデータ) (2020-12-08T14:47:23Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。