論文の概要: Modeling Speaker-Listener Interaction for Backchannel Prediction
- arxiv url: http://arxiv.org/abs/2304.04472v1
- Date: Mon, 10 Apr 2023 09:22:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 15:27:13.896549
- Title: Modeling Speaker-Listener Interaction for Backchannel Prediction
- Title(参考訳): バックチャネル予測のための話者-リスナー相互作用のモデル化
- Authors: Daniel Ortega, Sarina Meyer, Antje Schweitzer and Ngoc Thang Vu
- Abstract要約: バックチャネル理論は、会話の過程でリスナーの活発で継続的な役割を強調する。
話者音声から音響特徴を処理し,最小応答に基づくニューラルベース音響バックチャネル分類器を提案する。
SwitchboardとGECOデータセットの実験結果は、ほぼすべてのテストシナリオにおいて、話者またはリスナーの振る舞いの埋め込みが、モデルがより正確なバックチャネル予測を行うのに役立つことを示している。
- 参考スコア(独自算出の注目度): 24.52345279975304
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present our latest findings on backchannel modeling novelly motivated by
the canonical use of the minimal responses Yeah and Uh-huh in English and their
correspondent tokens in German, and the effect of encoding the speaker-listener
interaction. Backchanneling theories emphasize the active and continuous role
of the listener in the course of the conversation, their effects on the
speaker's subsequent talk, and the consequent dynamic speaker-listener
interaction. Therefore, we propose a neural-based acoustic backchannel
classifier on minimal responses by processing acoustic features from the
speaker speech, capturing and imitating listeners' backchanneling behavior, and
encoding speaker-listener interaction. Our experimental results on the
Switchboard and GECO datasets reveal that in almost all tested scenarios the
speaker or listener behavior embeddings help the model make more accurate
backchannel predictions. More importantly, a proper interaction encoding
strategy, i.e., combining the speaker and listener embeddings, leads to the
best performance on both datasets in terms of F1-score.
- Abstract(参考訳): 本稿では,英語のYeah,Uh-huh,およびドイツ語の対応トークンの標準的使用と話者-リスナー相互作用の符号化によるバックチャネルモデリングに関する最新の知見を紹介する。
バックチャネル理論は、会話の過程におけるリスナーの活発かつ継続的な役割、話者のその後の講演に対するその影響、そしてそれに伴う動的話者-リスナー相互作用を強調する。
そこで我々は,話者音声から音響特徴を処理し,聴取者のバックチャネル動作を捉え,模倣し,話者とリスナーの相互作用を符号化することで,最小応答に基づくニューラルベース音響バックチャネル分類器を提案する。
スイッチボードとgecoデータセットにおける実験結果から,ほぼすべてのテストシナリオにおいて,話者あるいはリスナの動作埋め込みは,モデルがより正確なバックチャネル予測を行うのに役立つことが分かった。
さらに重要なことに、適切なインタラクションエンコーディング戦略、すなわち話者とリスナの埋め込みの組み合わせは、f1-scoreの観点から両方のデータセットで最高のパフォーマンスをもたらす。
関連論文リスト
- Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Oh, Jeez! or Uh-huh? A Listener-aware Backchannel Predictor on ASR
Transcriptions [30.779582465296897]
本研究では、継続器やアセスメントなどのバックチャネルを挿入してアクティブリスナーとして機能し、話者に影響を与えるシステムを開発する。
我々のモデルは, 語彙や音響だけでなく, 様々なバックチャネルの動作を模倣するために, リスナーの埋め込みを利用するという, シンプルで斬新なアイデアも取り入れている。
論文 参考訳(メタデータ) (2023-04-10T09:33:29Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - A Speaker-aware Parallel Hierarchical Attentive Encoder-Decoder Model
for Multi-turn Dialogue Generation [13.820298189734686]
本稿では,マルチターン会話における話者の区別を強調するオープンドメイン対話生成モデルを提案する。
実験の結果,PHAEDは自動評価と人的評価の両面で最先端の成績を示した。
論文 参考訳(メタデータ) (2021-10-13T16:08:29Z) - The Right to Talk: An Audio-Visual Transformer Approach [27.71444773878775]
本研究は,複数話者会話ビデオの音声および視覚チャネルにおける主話者のローカライゼーションと強調を行うために,新たなオーディオ・ビジュアル・トランスフォーマーアプローチを導入する。
我々の知る限りでは、マルチスピーカー会話ビデオにおいて、視覚と音声の両方で主話者を自動的にローカライズし、ハイライトすることができる最初の研究の1つである。
論文 参考訳(メタデータ) (2021-08-06T18:04:24Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Self-supervised learning for audio-visual speaker diarization [33.87232473483064]
本稿では,大規模ラベリングを伴わない話者ダイアリゼーションの問題に対処する,自己教師型音声-ビデオ同期学習手法を提案する。
実世界の人間とコンピュータのインタラクションシステムでテストし、その結果、最良のモデルでは、ダイアリゼーション誤差率の低減とともに、8%F1スコアが顕著に向上することを示した。
論文 参考訳(メタデータ) (2020-02-13T02:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。