論文の概要: Non-verbal information in spontaneous speech - towards a new framework
of analysis
- arxiv url: http://arxiv.org/abs/2403.03522v1
- Date: Wed, 6 Mar 2024 08:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:42:31.809849
- Title: Non-verbal information in spontaneous speech - towards a new framework
of analysis
- Title(参考訳): 自然発話における非言語情報 -新しい分析枠組みに向けて-
- Authors: Tirza Biron, Moshe Barboy, Eran Ben-Artzy, Alona Golubchik, Yanir
Marmor, Smadar Szekely, Yaron Winter, David Harel
- Abstract要約: 本稿では,韻律信号の分類のための解析的スキーマと技術的概念実証を提供する。
3つの順序の韻律現象を解き放つ分類過程を示す。
散在する韻律パターンは、コミュニケーションと音声の組織化の理論を導くことができる。
- 参考スコア(独自算出の注目度): 0.5559722082623594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-verbal signals in speech are encoded by prosody and carry information
that ranges from conversation action to attitude and emotion. Despite its
importance, the principles that govern prosodic structure are not yet
adequately understood. This paper offers an analytical schema and a
technological proof-of-concept for the categorization of prosodic signals and
their association with meaning. The schema interprets surface-representations
of multi-layered prosodic events. As a first step towards implementation, we
present a classification process that disentangles prosodic phenomena of three
orders. It relies on fine-tuning a pre-trained speech recognition model,
enabling the simultaneous multi-class/multi-label detection. It generalizes
over a large variety of spontaneous data, performing on a par with, or superior
to, human annotation. In addition to a standardized formalization of prosody,
disentangling prosodic patterns can direct a theory of communication and speech
organization. A welcome by-product is an interpretation of prosody that will
enhance speech- and language-related technologies.
- Abstract(参考訳): 音声の非言語信号は韻律によって符号化され、会話行動から態度や感情まで幅広い情報を運ぶ。
その重要性にもかかわらず、韻律構造を支配する原則はまだ十分に理解されていない。
本稿では,韻律信号の分類と意味との関連性について,分析的スキーマと概念実証を行う。
スキーマは多層プロソディックイベントの表面表現を解釈する。
実装に向けた第一歩として、3つの順序の韻律現象を解消する分類過程を示す。
事前学習された音声認識モデルを微調整し、複数クラス/複数ラベル同時検出を可能にする。
それは多種多様な自発的データを一般化し、人間のアノテーションと同等、またはそれ以上の性能で実行します。
韻律の標準化された形式化に加えて、散在する韻律パターンはコミュニケーションと音声の組織化の理論を導くことができる。
歓迎副産物は、音声および言語関連技術を強化する韻律の解釈である。
関連論文リスト
- Identifying and interpreting non-aligned human conceptual
representations using language modeling [0.0]
先天性失明は,a-モダル語と知覚関連言語ドメインの両方において概念的再編成を引き起こすことを示す。
視覚障害者は、より強く社会的・認知的な意味と、行動に関連する動詞を関連づける。
一部の動詞では、盲目と盲目の表現は非常に似ている。
論文 参考訳(メタデータ) (2024-03-10T13:02:27Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis [53.511443791260206]
自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
論文 参考訳(メタデータ) (2023-08-31T09:50:33Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Disentangling Prosody Representations with Unsupervised Speech
Reconstruction [22.873286925385543]
本研究の目的は、教師なし再構成に基づく音声からの感情的韻律のゆがみに対処することである。
具体的には,提案した音声再構成モデルProsody2Vecの3つの重要なコンポーネントを同定し,設計し,実装し,統合する。
まず, 感情的コーパスのProsody2Vec表現を事前訓練し, 特定のデータセットのモデルを微調整し, 音声感情認識(SER)と感情音声変換(EVC)タスクを実行する。
論文 参考訳(メタデータ) (2022-12-14T01:37:35Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - Saliency Map Verbalization: Comparing Feature Importance Representations
from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。
我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。
本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文 参考訳(メタデータ) (2022-10-13T17:48:15Z) - Latent Topology Induction for Understanding Contextualized
Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。
文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文 参考訳(メタデータ) (2022-06-03T11:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。