論文の概要: Unsupervised Auditory and Semantic Entrainment Models with Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2312.15098v1
- Date: Fri, 22 Dec 2023 22:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:48:11.839371
- Title: Unsupervised Auditory and Semantic Entrainment Models with Deep Neural
Networks
- Title(参考訳): ディープニューラルネットワークを用いた教師なし聴覚・意味学習モデル
- Authors: Jay Kejriwal, Stefan Benus, Lina M. Rojas-Barahona
- Abstract要約: 本稿では,意味学習を開発するためのテキストの特徴から意味のある表現を導出する,教師なしのディープラーニングフレームワークを提案する。
その結果,本モデルでは,HHとHMの相互作用を区別し,音響特性を抽出するための2つの分析単位が同等な結果をもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 0.3222802562733786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speakers tend to engage in adaptive behavior, known as entrainment, when they
become similar to their interlocutor in various aspects of speaking. We present
an unsupervised deep learning framework that derives meaningful representation
from textual features for developing semantic entrainment. We investigate the
model's performance by extracting features using different variations of the
BERT model (DistilBERT and XLM-RoBERTa) and Google's universal sentence encoder
(USE) embeddings on two human-human (HH) corpora (The Fisher Corpus English
Part 1, Columbia games corpus) and one human-machine (HM) corpus (Voice
Assistant Conversation Corpus (VACC)). In addition to semantic features we also
trained DNN-based models utilizing two auditory embeddings (TRIpLet Loss
network (TRILL) vectors, Low-level descriptors (LLD) features) and two units of
analysis (Inter pausal unit and Turn). The results show that semantic
entrainment can be assessed with our model, that models can distinguish between
HH and HM interactions and that the two units of analysis for extracting
acoustic features provide comparable findings.
- Abstract(参考訳): 話者は、会話のさまざまな側面において対話者と類似するようになると、エントレーメントとして知られる適応行動に関与する傾向がある。
本稿では,テキストの特徴から意味のある表現を導き出す教師なしのディープラーニングフレームワークを提案する。
本研究では,BERT モデル (DistilBERT と XLM-RoBERTa) と Google の普遍文エンコーダ (USE) を2つの人間 (HH) コーパス (The Fisher Corpus English Part 1, Columbia Games corpus) と1つの人間 (HM) コーパス (Voice Assistant Conversation Corpus (VACC)) に埋め込んだ特徴を抽出し,その性能について検討する。
セマンティック機能に加えて、2つの聴覚埋め込み(TRILL)ベクトル、低レベル記述子(LLD)特徴)と2つの分析単位(Inter pausal unit and Turn)を用いてDNNベースのモデルを訓練した。
その結果,本モデルでは,HHとHMの相互作用を区別し,音響特性を抽出する2つの分析単位が同等な結果をもたらすことが示唆された。
関連論文リスト
- Human-like Linguistic Biases in Neural Speech Models: Phonetic Categorization and Phonotactic Constraints in Wav2Vec2.0 [0.11510009152620666]
We study how how Wav2Vec2solvs phonotactic constraints。
我々は/l/と/r/の音響連続体に音を合成し、制御された文脈に埋め込む。
人間と同様に、Wav2Vec2モデルは、このようなあいまいな音を処理する際に、音素的に許容できるカテゴリーに対してバイアスを示す。
論文 参考訳(メタデータ) (2024-07-03T11:04:31Z) - Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。
提案手法は,開語彙HOI検出の最先端化を実現する。
論文 参考訳(メタデータ) (2024-04-09T10:27:22Z) - Relationship between auditory and semantic entrainment using Deep Neural
Networks (DNN) [0.0]
本研究では、BERTやTRILL(TRILL)ベクターのような最先端の埋め込みを利用して、対話中のターンの意味的および聴覚的類似性を測定する特徴を抽出した。
聴覚機能と比較して意味的特徴を訓練する傾向が見られた。
本研究の成果は,ヒトと機械の相互作用(HMI)におけるエントレインメントのメカニズムの実装に役立つかもしれない。
論文 参考訳(メタデータ) (2023-12-27T14:50:09Z) - CiwaGAN: Articulatory information exchange [15.944474482218334]
人間は調音器を制御して音に情報をエンコードし、聴覚装置を用いて音から情報をデコードする。
本稿では、教師なし調音モデルと教師なし情報交換モデルを組み合わせた人間の音声言語習得モデルであるCiwaGANを紹介する。
論文 参考訳(メタデータ) (2023-09-14T17:10:39Z) - Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。