論文の概要: Seeing and hearing what has not been said; A multimodal client behavior
classifier in Motivational Interviewing with interpretable fusion
- arxiv url: http://arxiv.org/abs/2309.14398v2
- Date: Wed, 27 Sep 2023 08:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 10:24:46.617051
- Title: Seeing and hearing what has not been said; A multimodal client behavior
classifier in Motivational Interviewing with interpretable fusion
- Title(参考訳): 話の聞き取りと聞き取り : 解釈可能な融合による動機付け面接におけるマルチモーダルクライアント行動分類器
- Authors: Lucie Galland, Catherine Pelachaud and Florian Pecune
- Abstract要約: モチベーション・インタヴュー(英: Motivational Interviewing、MI)は、協調を重視し、行動の変化を促すセラピーのアプローチである。
MI会話の品質を評価するために、MISCコードを用いてクライアント発話を変更トーク、継続トーク、フォロー/ニュートラルトークのいずれかとして分類することができる。
MI会話における変化話の割合はセラピーの結果と正に相関しており、クライアント発話の正確な分類が不可欠である。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Motivational Interviewing (MI) is an approach to therapy that emphasizes
collaboration and encourages behavioral change. To evaluate the quality of an
MI conversation, client utterances can be classified using the MISC code as
either change talk, sustain talk, or follow/neutral talk. The proportion of
change talk in a MI conversation is positively correlated with therapy
outcomes, making accurate classification of client utterances essential. In
this paper, we present a classifier that accurately distinguishes between the
three MISC classes (change talk, sustain talk, and follow/neutral talk)
leveraging multimodal features such as text, prosody, facial expressivity, and
body expressivity. To train our model, we perform annotations on the publicly
available AnnoMI dataset to collect multimodal information, including text,
audio, facial expressivity, and body expressivity. Furthermore, we identify the
most important modalities in the decision-making process, providing valuable
insights into the interplay of different modalities during a MI conversation.
- Abstract(参考訳): モチベーション・インタヴュー(英: Motivational Interviewing、MI)は、協調を重視し、行動の変化を促すセラピーのアプローチである。
MI会話の品質を評価するために、MISCコードを用いてクライアント発話を変更トーク、継続トーク、フォロー/ニュートラルトークのいずれかとして分類することができる。
MI会話における変化話の割合はセラピーの結果と正に相関しており、クライアント発話の正確な分類が不可欠である。
本稿では,テキスト,韻律,表情表現性,身体表現性といったマルチモーダルな特徴を活用し,三つのmiscクラス(チェンジトーク,維持トーク,フォロー/ニュートラルトーク)を正確に区別する分類器を提案する。
モデルをトレーニングするために、公開されたannomiデータセットにアノテーションを実行して、テキスト、オーディオ、表情表現性、身体表現性などのマルチモーダル情報を収集します。
さらに、意思決定プロセスにおいて最も重要なモダリティを特定し、MI会話中の様々なモダリティの相互作用に関する貴重な洞察を提供する。
関連論文リスト
- Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。
本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。
オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文 参考訳(メタデータ) (2024-06-16T20:41:44Z) - M3TCM: Multi-modal Multi-task Context Model for Utterance Classification in Motivational Interviews [1.8100046713740954]
発話分類のためのマルチモーダル・マルチタスクコンテキストモデルであるM3TCMを提案する。
われわれのアプローチでは、マルチタスク学習を用いて、セラピストとクライアントの振る舞いのジョイントコンポーネントと個別コンポーネントの両方を効果的にモデル化する。
提案手法により,最近導入されたAnnoMIデータセットの発話分類技術は,クライアントで20%,セラピストで15%向上した。
論文 参考訳(メタデータ) (2024-04-04T09:17:22Z) - Multi-dimensional Evaluation of Empathetic Dialog Responses [4.580983642743026]
話者の視点から表現された意図と聴取者の視点から認識された共感の両方を測定するための多次元共感評価フレームワークを提案する。
両次元は相互接続であり,共感は対話満足度と高い相関関係を持つことがわかった。
論文 参考訳(メタデータ) (2024-02-18T00:32:33Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - MPCHAT: Towards Multimodal Persona-Grounded Conversation [54.800425322314105]
我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。
まず,MPCHATという対話データセットを提案する。
第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-05-27T06:46:42Z) - Context-Dependent Embedding Utterance Representations for Emotion
Recognition in Conversations [1.8126187844654875]
我々は会話の文脈を利用した会話における感情認識にアプローチする。
それぞれの発話の文脈依存的な埋め込み表現を提案する。
提案手法の有効性は,オープンドメインのDailyDialogデータセットとタスク指向のEmoWOZデータセットで検証される。
論文 参考訳(メタデータ) (2023-04-17T12:37:57Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - A General Model of Conversational Dynamics and an Example Application in
Serious Illness Communication [0.0]
本稿では,会話における情報フローのパターンを研究するための新しい手法であるCODYM(Conversational Dynamics Model)分析について述べる。
CODYMは、話者ターンの長さの逐次的依存関係をキャプチャするマルコフモデルである。
重要な第1の応用として, 緩和医療医と重病患者との会話の書き起こしモデルについて紹介する。
論文 参考訳(メタデータ) (2020-10-11T04:33:03Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。