論文の概要: Gated Multimodal Fusion with Contrastive Learning for Turn-taking
Prediction in Human-robot Dialogue
- arxiv url: http://arxiv.org/abs/2204.10172v1
- Date: Mon, 18 Apr 2022 05:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 12:33:56.906528
- Title: Gated Multimodal Fusion with Contrastive Learning for Turn-taking
Prediction in Human-robot Dialogue
- Title(参考訳): ロボット対話におけるターンテイク予測のためのコントラスト学習を用いたゲーテッドマルチモーダルフュージョン
- Authors: Jiudong Yang, Peiying Wang, Yi Zhu, Mingchao Feng, Meng Chen, Xiaodong
He
- Abstract要約: 次の話者がいつ話し始めるかを決めることを目的としたターンテイキングは、人間ロボットによる対話システムを構築する上で不可欠な要素である。
まず,5000以上の人間とロボットの対話を音声とテキストのモダリティで行うターンテイクのための大規模な注釈付きコーパスを収集する。
ターンテイク予測に様々な情報をシームレスに利用するために,新しいゲート型マルチモーダル融合機構を考案した。
- 参考スコア(独自算出の注目度): 15.710861456924158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Turn-taking, aiming to decide when the next speaker can start talking, is an
essential component in building human-robot spoken dialogue systems. Previous
studies indicate that multimodal cues can facilitate this challenging task.
However, due to the paucity of public multimodal datasets, current methods are
mostly limited to either utilizing unimodal features or simplistic multimodal
ensemble models. Besides, the inherent class imbalance in real scenario, e.g.
sentence ending with short pause will be mostly regarded as the end of turn,
also poses great challenge to the turn-taking decision. In this paper, we first
collect a large-scale annotated corpus for turn-taking with over 5,000 real
human-robot dialogues in speech and text modalities. Then, a novel gated
multimodal fusion mechanism is devised to utilize various information
seamlessly for turn-taking prediction. More importantly, to tackle the data
imbalance issue, we design a simple yet effective data augmentation method to
construct negative instances without supervision and apply contrastive learning
to obtain better feature representations. Extensive experiments are conducted
and the results demonstrate the superiority and competitiveness of our model
over several state-of-the-art baselines.
- Abstract(参考訳): 次の話者が話し始めるタイミングを決定するターンテイクは、人間とロボットの対話システムを構築する上で欠かせない要素である。
これまでの研究では、マルチモーダルな手がかりがこの困難なタスクを促進できることが示されている。
しかし、公共のマルチモーダルデータセットが多用されているため、現在の手法は非モーダル特徴を利用するか、単純化されたマルチモーダルアンサンブルモデルを使用するかに限られている。
さらに、実シナリオにおける固有のクラス不均衡(例えば、短い停止で終わる文は、主にターンの終わりと見なされる)は、ターンテイクの決定に大きな挑戦をもたらす。
本稿では,まず,5000以上の人間-ロボット対話を音声とテキストのモーダルで行うターンテイクのための大規模注釈付きコーパスを収集する。
そして,新しいゲート型マルチモーダル融合機構を考案し,ターンテイク予測に様々な情報をシームレスに利用する。
さらに,データ不均衡問題に対処するために,教師なしの負のインスタンス構築のための簡易かつ効果的なデータ拡張手法を設計し,コントラスト学習を適用して優れた特徴表現を得る。
広範な実験を行い,本モデルが最先端のベースラインよりも優れていること,および競争力があることを実証した。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Self- and Pseudo-self-supervised Prediction of Speaker and Key-utterance
for Multi-party Dialogue Reading Comprehension [46.69961067676279]
マルチパーティ対話機械読解(MRC)は,複数の話者が対話を行うため,大きな課題をもたらす。
従来のモデルは、複雑なグラフベースのモジュールを使用して話者情報フローを組み込む方法に重点を置いていた。
本稿では、話者情報の流れを暗黙的にモデル化するために、話者とキー発話における2つの労働自由自助的・疑似自己監督型予測タスクを設計する。
論文 参考訳(メタデータ) (2021-09-08T16:51:41Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Multi-Modal Open-Domain Dialogue [28.69395893943413]
オープンドメインの会話エージェントにおける最近の研究は、大規模なスケーリングによって、モデルエンゲージネスと人文性メトリクスの大幅な改善が達成できることを実証している。
我々は、最先端のオープンドメイン対話エージェントと最先端のビジョンモデルからのコンポーネントの組み合わせについて検討する。
提案手法は,マルチモーダル対話において,既存モデルよりも優れた性能を示すと同時に,先行モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-02T16:20:39Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。