論文の概要: Retrieval-Augmented Multimodal Depression Detection
- arxiv url: http://arxiv.org/abs/2511.01892v1
- Date: Wed, 29 Oct 2025 06:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.569435
- Title: Retrieval-Augmented Multimodal Depression Detection
- Title(参考訳): 検索型マルチモーダルデプレッション検出
- Authors: Ruibo Hou, Shiyu Teng, Jiaqing Liu, Shurong Chai, Yinhao Li, Lanfen Lin, Yen-Wei Chen,
- Abstract要約: うつ病検出のための新しいRAG(Retrieval-Augmented Generation)フレームワークを提案する。
本手法は,うつ病関連テキストから感情データセットから意味的関連性のある感情コンテンツを抽出する。
提案手法は,CCCが0.593,MAEが3.95であり,従来の移動学習やマルチタスク学習のベースラインを超えている。
- 参考スコア(独自算出の注目度): 18.36451774538809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal deep learning has shown promise in depression detection by integrating text, audio, and video signals. Recent work leverages sentiment analysis to enhance emotional understanding, yet suffers from high computational cost, domain mismatch, and static knowledge limitations. To address these issues, we propose a novel Retrieval-Augmented Generation (RAG) framework. Given a depression-related text, our method retrieves semantically relevant emotional content from a sentiment dataset and uses a Large Language Model (LLM) to generate an Emotion Prompt as an auxiliary modality. This prompt enriches emotional representation and improves interpretability. Experiments on the AVEC 2019 dataset show our approach achieves state-of-the-art performance with CCC of 0.593 and MAE of 3.95, surpassing previous transfer learning and multi-task learning baselines.
- Abstract(参考訳): マルチモーダルディープラーニングは、テキスト、オーディオ、ビデオ信号を統合することで、抑うつ検出において有望であることを示す。
最近の研究は感情分析を活用して感情的理解を高めるが、高い計算コスト、ドメインミスマッチ、静的知識制限に悩まされている。
これらの課題に対処するため,我々は新しいRAG(Retrieval-Augmented Generation)フレームワークを提案する。
抑うつ関連テキストが与えられた場合、感情データセットから意味的に関連する感情的コンテンツを検索し、Large Language Model (LLM) を用いて感情プロンプトを補助的モーダルとして生成する。
このプロンプトは感情表現を豊かにし、解釈可能性を向上させる。
AVEC 2019データセットの実験では,従来の移動学習とマルチタスク学習のベースラインを越え,0.593のCCCと3.95のMAEで最先端のパフォーマンスを実現した。
関連論文リスト
- Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs [47.325269852330884]
我々は,意味的に整合したエビデンスに基づく説明を行うことで,感情認識を強化する戦略を開発する。
本稿では、推論強化データ監視、デュアルエンコーダアーキテクチャ、タスク代替トレーニングを組み合わせた統合フレームワークを提案する。
IEMOCAPとMELDの実験により、我々のアプローチは感情予測精度を向上するだけでなく、生成した応答のコヒーレンスと明解なグラウンド化も向上することが示された。
論文 参考訳(メタデータ) (2025-06-07T14:52:58Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Emotion-Aware Embedding Fusion in LLMs (Flan-T5, LLAMA 2, DeepSeek-R1, and ChatGPT 4) for Intelligent Response Generation [0.5454121013433086]
本研究は,精神医学的応用における大規模言語モデル(LLM)の感情的・文脈的理解を高めることの課題に対処する。
本稿では,階層的融合と注意機構を統合した新しいフレームワークであるEmotion-Aware Embedding Fusionを紹介する。
このシステムは、既存のメンタルヘルスプラットフォームに統合され、検索されたセラピーセッションデータに基づいてパーソナライズされた応答を生成することができる。
論文 参考訳(メタデータ) (2024-10-02T08:01:05Z) - Unsupervised Extractive Summarization of Emotion Triggers [56.50078267340738]
我々は、感情を共同で検出し、トリガーを要約できる新しい教師なし学習モデルを開発した。
Emotion-Aware Pagerankと題された私たちのベストアプローチは、外部ソースからの感情情報と言語理解モジュールを組み合わせたものです。
論文 参考訳(メタデータ) (2023-06-02T11:07:13Z) - REDAffectiveLM: Leveraging Affect Enriched Embedding and
Transformer-based Neural Language Model for Readers' Emotion Detection [3.6678641723285446]
本稿では,REDAffectiveLMと呼ばれる深層学習モデルを用いて,短文文書からの読み手感情検出のための新しい手法を提案する。
コンテクストに特化してリッチ表現に影響を与え, リッチBi-LSTM+Attentionに影響を及ぼすタンデムにおいて, トランスフォーマーに基づく事前学習言語モデルを用いることで, リッチ表現に影響を及ぼす。
論文 参考訳(メタデータ) (2023-01-21T19:28:25Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。