論文の概要: M3TCM: Multi-modal Multi-task Context Model for Utterance Classification in Motivational Interviews
- arxiv url: http://arxiv.org/abs/2404.03312v1
- Date: Thu, 4 Apr 2024 09:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 15:14:12.799040
- Title: M3TCM: Multi-modal Multi-task Context Model for Utterance Classification in Motivational Interviews
- Title(参考訳): M3TCM:モチベーションインタビューにおける発話分類のためのマルチモーダルマルチタスクコンテキストモデル
- Authors: Sayed Muddashir Hossain, Jan Alexandersson, Philipp Müller,
- Abstract要約: 発話分類のためのマルチモーダル・マルチタスクコンテキストモデルであるM3TCMを提案する。
われわれのアプローチでは、マルチタスク学習を用いて、セラピストとクライアントの振る舞いのジョイントコンポーネントと個別コンポーネントの両方を効果的にモデル化する。
提案手法により,最近導入されたAnnoMIデータセットの発話分類技術は,クライアントで20%,セラピストで15%向上した。
- 参考スコア(独自算出の注目度): 1.8100046713740954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate utterance classification in motivational interviews is crucial to automatically understand the quality and dynamics of client-therapist interaction, and it can serve as a key input for systems mediating such interactions. Motivational interviews exhibit three important characteristics. First, there are two distinct roles, namely client and therapist. Second, they are often highly emotionally charged, which can be expressed both in text and in prosody. Finally, context is of central importance to classify any given utterance. Previous works did not adequately incorporate all of these characteristics into utterance classification approaches for mental health dialogues. In contrast, we present M3TCM, a Multi-modal, Multi-task Context Model for utterance classification. Our approach for the first time employs multi-task learning to effectively model both joint and individual components of therapist and client behaviour. Furthermore, M3TCM integrates information from the text and speech modality as well as the conversation context. With our novel approach, we outperform the state of the art for utterance classification on the recently introduced AnnoMI dataset with a relative improvement of 20% for the client- and by 15% for therapist utterance classification. In extensive ablation studies, we quantify the improvement resulting from each contribution.
- Abstract(参考訳): モチベーションインタビューにおける正確な発話分類は、顧客とセラピストの相互作用の質やダイナミクスを自動的に理解するために不可欠であり、そのような相互作用を仲介するシステムにとって重要な入力として機能する。
モチベーション・インタビューには3つの重要な特徴がある。
まず、クライアントとセラピストという2つの異なる役割がある。
第二に、しばしば感情的に強く充電され、テキストと韻律の両方で表現される。
最後に、コンテキストは任意の発話を分類する上で重要である。
過去の研究は、これらの特徴をすべてメンタルヘルス対話のための発話分類アプローチに適切に組み入れていなかった。
対照的に、発話分類のためのマルチモーダルマルチタスクコンテキストモデルであるM3TCMを提案する。
われわれのアプローチでは、マルチタスク学習を用いて、セラピストとクライアントの振る舞いのジョイントコンポーネントと個別コンポーネントの両方を効果的にモデル化する。
さらに、M3TCMは、テキストと音声のモダリティと会話コンテキストからの情報を統合する。
新たなアプローチでは、最近導入されたAnnoMIデータセットの発話分類における最先端の手法よりも、クライアントで20%、セラピストで15%向上した。
広範囲にわたるアブレーション研究において、各コントリビューションによる改善の定量化を行う。
関連論文リスト
- Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Seeing and hearing what has not been said; A multimodal client behavior
classifier in Motivational Interviewing with interpretable fusion [0.8192907805418583]
モチベーション・インタヴュー(英: Motivational Interviewing、MI)は、協調を重視し、行動の変化を促すセラピーのアプローチである。
MI会話の品質を評価するために、MISCコードを用いてクライアント発話を変更トーク、継続トーク、フォロー/ニュートラルトークのいずれかとして分類することができる。
MI会話における変化話の割合はセラピーの結果と正に相関しており、クライアント発話の正確な分類が不可欠である。
論文 参考訳(メタデータ) (2023-09-25T16:00:06Z) - MPCHAT: Towards Multimodal Persona-Grounded Conversation [54.800425322314105]
我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。
まず,MPCHATという対話データセットを提案する。
第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-05-27T06:46:42Z) - Mixtures of Deep Neural Experts for Automated Speech Scoring [11.860560781894458]
本論文は,言語学習者の音声応答からテストプロンプトに対する第二言語能力の自動評価の課題に対処する。
本手法は,(1)音声対話のテキスト書き起こしを自動生成する音声認識システム,(2)テキスト書き起こしを習熟クラスに分類する深層学習者に基づく複数分類システム,の2つの異なるモジュールに依存している。
論文 参考訳(メタデータ) (2021-06-23T15:44:50Z) - MPC-BERT: A Pre-Trained Language Model for Multi-Party Conversation
Understanding [58.95156916558384]
MPC理解のための事前学習モデルであるMPC-BERTを提案する。
我々は,MPC-BERTを,話者認識,話者識別,応答選択を含む3つの下流タスクで評価した。
論文 参考訳(メタデータ) (2021-06-03T01:49:12Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Multitask Learning for Emotion and Personality Detection [17.029426018676997]
本研究では,人格特性と感情行動の相関関係を解明し,新しいマルチタスク学習フレームワークSoGMTLを提案する。
当社の計算効率の高いCNNベースのマルチタスクモデルは、複数の有名なパーソナリティおよび感情データセットにわたる最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-01-07T03:09:55Z) - Re-framing Incremental Deep Language Models for Dialogue Processing with
Multi-task Learning [14.239355474794142]
本稿では,1つのインクリメンタル対話処理モデルのトレーニングを可能にするマルチタスク学習フレームワークを提案する。
これらのタスクは、タスクからのノイズの重大度に依存する各タスクの最適貢献により、互いに正の帰納バイアスを与えることを示す。
論文 参考訳(メタデータ) (2020-11-13T04:31:51Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。