論文の概要: Detecting depression in dyadic conversations with multimodal narratives
and visualizations
- arxiv url: http://arxiv.org/abs/2001.04809v2
- Date: Mon, 27 Jan 2020 23:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 22:30:00.168596
- Title: Detecting depression in dyadic conversations with multimodal narratives
and visualizations
- Title(参考訳): マルチモーダル・ナラティブを用いたディヤド会話における抑うつの検出と可視化
- Authors: Joshua Y. Kim, Greyson Y. Kim and Kalina Yacef
- Abstract要約: 本稿では,人間による会話の分析を支援するシステムを開発する。
本研究では,マルチモーダル情報を広範囲に取り込み,個人の抑うつ状態を予測するための予測スコアを自動生成するシステムについて述べる。
- 参考スコア(独自算出の注目度): 1.4824891788575418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversations contain a wide spectrum of multimodal information that gives us
hints about the emotions and moods of the speaker. In this paper, we developed
a system that supports humans to analyze conversations. Our main contribution
is the identification of appropriate multimodal features and the integration of
such features into verbatim conversation transcripts. We demonstrate the
ability of our system to take in a wide range of multimodal information and
automatically generated a prediction score for the depression state of the
individual. Our experiments showed that this approach yielded better
performance than the baseline model. Furthermore, the multimodal narrative
approach makes it easy to integrate learnings from other disciplines, such as
conversational analysis and psychology. Lastly, this interdisciplinary and
automated approach is a step towards emulating how practitioners record the
course of treatment as well as emulating how conversational analysts have been
analyzing conversations by hand.
- Abstract(参考訳): 会話には幅広いマルチモーダル情報が含まれており、話者の感情や気分についてヒントを与えてくれる。
本稿では,人間による会話の分析を支援するシステムを開発した。
本研究の主な貢献は, 適切なマルチモーダル特徴の同定と, 言語会話書き起こしへの統合である。
本研究では,マルチモーダル情報を広範囲に取り込み,個人の抑うつ状態を予測するための予測スコアを自動生成するシステムについて述べる。
実験の結果,本手法はベースラインモデルよりも優れた性能を示した。
さらに、マルチモーダルナラティブアプローチは、会話分析や心理学など、他の分野からの学習を統合しやすくする。
最後に、この学際的で自動化されたアプローチは、実践者が治療の過程を記録する方法のエミュレートと、会話アナリストが手動で会話を分析する方法のエミュレーションへのステップである。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - MPCHAT: Towards Multimodal Persona-Grounded Conversation [54.800425322314105]
我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。
まず,MPCHATという対話データセットを提案する。
第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-05-27T06:46:42Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Advancing an Interdisciplinary Science of Conversation: Insights from a
Large Multimodal Corpus of Human Speech [0.12038936091716987]
本報告では, 対話の学際的科学を推進し, 音声英語で記録された1,656件の多モーダルコーパスから得られた知見を報告する。
この700万語以上の単語と850時間のコーパスは、1TB以上の音声、ビデオ、そして文字起こしで、声、顔、意味表現のモーメント・ツー・モーメント(モーメント)を計測する。
本報告では, 多様な背景を持つ個人がコミュニケーションパターンをどう変化させ, 接続する方法を見出すかを示す, 定量的分析と定性的な各録音の質的レビューに基づいて, 総合的な混合手法のレポートを報告する。
論文 参考訳(メタデータ) (2022-03-01T18:50:33Z) - Who says like a style of Vitamin: Towards Syntax-Aware
DialogueSummarization using Multi-task Learning [2.251583286448503]
個々の話者からの発声と独特の統語構造との関係に焦点をあてる。
話者は、音声プリントのような言語情報を含むことができる独自のテキストスタイルを持つ。
構文認識情報と対話要約の両方をマルチタスクで学習する。
論文 参考訳(メタデータ) (2021-09-29T05:30:39Z) - MultiTalk: A Highly-Branching Dialog Testbed for Diverse Conversations [39.81965687032923]
会話対話文のコーパスであるMultiTalkデータセットについて述べる。
高分岐環境におけるダイアログ生成の研究に複数の貢献をしている。
我々の達成課題は心の問題の挑戦的理論であり、制御可能な生成課題である。
論文 参考訳(メタデータ) (2021-02-02T02:29:40Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。