論文の概要: Oh, Jeez! or Uh-huh? A Listener-aware Backchannel Predictor on ASR
Transcriptions
- arxiv url: http://arxiv.org/abs/2304.04478v1
- Date: Mon, 10 Apr 2023 09:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 15:28:08.085285
- Title: Oh, Jeez! or Uh-huh? A Listener-aware Backchannel Predictor on ASR
Transcriptions
- Title(参考訳): ああ、ああ、ああ!
ASR転写におけるリスナー認識バックチャネル予測器
- Authors: Daniel Ortega, Chia-Yu Li, Ngoc Thang Vu
- Abstract要約: 本研究では、継続器やアセスメントなどのバックチャネルを挿入してアクティブリスナーとして機能し、話者に影響を与えるシステムを開発する。
我々のモデルは, 語彙や音響だけでなく, 様々なバックチャネルの動作を模倣するために, リスナーの埋め込みを利用するという, シンプルで斬新なアイデアも取り入れている。
- 参考スコア(独自算出の注目度): 30.779582465296897
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents our latest investigation on modeling backchannel in
conversations. Motivated by a proactive backchanneling theory, we aim at
developing a system which acts as a proactive listener by inserting
backchannels, such as continuers and assessment, to influence speakers. Our
model takes into account not only lexical and acoustic cues, but also
introduces the simple and novel idea of using listener embeddings to mimic
different backchanneling behaviours. Our experimental results on the
Switchboard benchmark dataset reveal that acoustic cues are more important than
lexical cues in this task and their combination with listener embeddings works
best on both, manual transcriptions and automatically generated transcriptions.
- Abstract(参考訳): 本稿では,会話におけるバックチャネルのモデル化に関する最近の研究について述べる。
プロアクティブなバックチャネル理論を動機として,継続器やアセスメントなどのバックチャネルを挿入して,アクティブなリスナーとして機能するシステムを開発することを目的とする。
我々のモデルは, 語彙や音響だけでなく, 様々なバックチャネルの動作を模倣するためにリスナーの埋め込みを利用するという, シンプルで斬新なアイデアも取り入れている。
switchboardベンチマークデータセットにおける実験結果から,この課題における音響的手がかりは語彙的手がかりよりも重要であり,リスナー埋め込みとの組合せは,手作業による書き起こしと自動生成された書き起こしの両方に最適であることが判明した。
関連論文リスト
- Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Modeling Speaker-Listener Interaction for Backchannel Prediction [24.52345279975304]
バックチャネル理論は、会話の過程でリスナーの活発で継続的な役割を強調する。
話者音声から音響特徴を処理し,最小応答に基づくニューラルベース音響バックチャネル分類器を提案する。
SwitchboardとGECOデータセットの実験結果は、ほぼすべてのテストシナリオにおいて、話者またはリスナーの振る舞いの埋め込みが、モデルがより正確なバックチャネル予測を行うのに役立つことを示している。
論文 参考訳(メタデータ) (2023-04-10T09:22:06Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Repeat after me: Self-supervised learning of acoustic-to-articulatory
mapping by vocal imitation [9.416401293559112]
そこで本稿では,限定的な解釈可能な音声パラメータ集合から複雑な音声刺激を再現可能な,事前学習されたニューラル音声合成器を組み合わせた音声生成の計算モデルを提案する。
フォワードモデルと逆モデルの両方は、異なる話者からの生の音響のみの音声データから、自己指導的な方法で共同で訓練される。
模倣シミュレーションは客観的かつ主観的に評価され、非常に奨励的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-04-05T15:02:49Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。