Fugu-MT 論文翻訳(概要): It Hears, It Sees too: Multi-Modal LLM for Depression Detection By Integrating Visual Understanding into Audio Language Models

論文の概要: It Hears, It Sees too: Multi-Modal LLM for Depression Detection By Integrating Visual Understanding into Audio Language Models

arxiv url: http://arxiv.org/abs/2511.19877v1
Date: Tue, 25 Nov 2025 03:38:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 17:37:04.255142
Title: It Hears, It Sees too: Multi-Modal LLM for Depression Detection By Integrating Visual Understanding into Audio Language Models
Title（参考訳）: 音声言語モデルへの視覚的理解の統合による抑うつ検出のためのマルチモーダルLLM
Authors: Xiangyu Zhao, Yaling Shen, Yiwen Jiang, Zimu Wang, Jiahe Liu, Maxmartwell H Cheng, Guilherme C Oliveira, Robert Desimone, Dominic Dwyer, Zongyuan Ge,
Abstract要約: うつ病は世界中で最も多い精神疾患の1つである。抑うつ検出のための新しいマルチモーダルLLMフレームワークを提案する。提案手法は,視覚的理解を伴う音声言語モデルを強化し,タイムスタンプレベルでの視覚的特徴の調整を行う。
参考スコア（独自算出の注目度）: 23.966623683606425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Depression is one of the most prevalent mental health disorders globally. In recent years, multi-modal data, such as speech, video, and transcripts, has been increasingly used to develop AI-assisted depression assessment systems. Large language models have further advanced this field due to their strong language understanding and generalization capabilities. However, conventional LLMs remain text-centric and cannot process the rich non-verbal cues found in audio and visual modalities, which are critical components in mental health evaluation. While multi-modal LLMs offer a promising direction, few are tailored for psychological applications. In this study, we propose a novel multi-modal LLM framework for depression detection. Our approach augments an audio language model with visual understanding and aligns audio-visual features at the timestamp level. This fine-grained alignment improves modeling of temporal dynamics across modalities while reducing the need for extensive training data and computational resources. Experiments on the DAIC-WoZ dataset demonstrate that our model outperforms both single-modality approaches and previous multi-modal methods. Moreover, the proposed framework can be extended to incorporate additional physiological signals, paving the way for broader clinical applications beyond mental health.
Abstract（参考訳）: うつ病は世界中で最も多い精神疾患の1つである。近年、音声、ビデオ、文字起こしなどのマルチモーダルデータは、AIによる抑うつ評価システムの開発にますます利用されている。大規模な言語モデルは、強力な言語理解と一般化能力のために、この分野をさらに進歩させてきた。しかし、従来のLLMはテキスト中心のままであり、音声や視覚的モダリティに見られる豊富な非言語的手がかりを処理できない。マルチモーダルLSMは有望な方向性を提供するが、心理学的応用に適したものはほとんどない。本研究では,抑うつ検出のためのマルチモーダルLLMフレームワークを提案する。提案手法は,視覚的理解を伴う音声言語モデルを強化し,タイムスタンプレベルでの視覚的特徴の調整を行う。この微粒なアライメントは、広範囲なトレーニングデータや計算資源の必要性を低減しつつ、モーダルティをまたいだ時間的ダイナミクスのモデリングを改善する。 DAIC-WoZデータセットを用いた実験により,本モデルが単一モダリティアプローチと従来のマルチモダリティ手法の両方より優れていることが示された。さらに、提案するフレームワークは、追加の生理的シグナルを組み込むように拡張することができ、メンタルヘルス以外の幅広い臨床応用への道を開くことができる。

関連論文リスト

Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文参考訳（メタデータ） (2026-03-03T18:58:00Z)
Exploring Machine Learning and Language Models for Multimodal Depression Detection [8.357574678947245]
本稿では,第1回マルチモーダル・パーソナリティ・アウェア・デプレッション検出チャレンジへのアプローチを提案する。我々は,音声,ビデオ,テキスト機能において,XGBoost,トランスフォーマーベースのアーキテクチャ,および大規模言語モデル(LLM)の性能を探索し比較する。本研究は,モダリティにまたがる抑うつ関連信号の捉え方について,各モデルの強みと限界を強調した。
論文参考訳（メタデータ） (2025-08-28T14:07:07Z)
MLlm-DR: Towards Explainable Depression Recognition with MultiModal Large Language Models [28.873959594226605]
自動うつ病診断は、インタビュービデオからのマルチモーダル情報を分析し、参加者のうつ病スコアを予測することを目的としている。これまでの研究では、これらのスコアがどのように決定されたかを明確に説明できず、臨床実践における導入を制限することが多かった。本稿では,マルチモーダル情報入力を理解でき,説明可能なうつ病診断を支援する新しい多モーダル大言語モデル(MLlm-DR)を提案する。
論文参考訳（メタデータ） (2025-07-08T01:56:39Z)
Speech as a Multimodal Digital Phenotype for Multi-Task LLM-based Mental Health Prediction [0.4517077427559345]
うつ病検出のための3モーダルマルチメディアデータソースとして,患者音声データの処理を提案する。提案手法は,抑うつ早期警戒データセットを用いて,3モーダル長手MLLを特徴とする手法である。バランスの取れた精度は70.8%で、これは一方向、単一タスク、および非縦方向のそれぞれの方法よりも高い。
論文参考訳（メタデータ） (2025-05-28T04:07:17Z)
Beyond Empathy: Integrating Diagnostic and Therapeutic Reasoning with Large Language Models for Mental Health Counseling [50.83055329849865]
PsyLLMは、メンタルヘルスカウンセリングの診断と治療的推論を統合するために設計された大きな言語モデルである。 Redditから現実世界のメンタルヘルス投稿を処理し、マルチターン対話構造を生成する。実験の結果,PsyLLMは最先端のベースラインモデルよりも優れていた。
論文参考訳（メタデータ） (2025-05-21T16:24:49Z)
Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文参考訳（メタデータ） (2025-03-03T06:46:26Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
When LLMs Meets Acoustic Landmarks: An Efficient Approach to Integrate Speech into Large Language Models for Depression Detection [17.018248242646365]
抑うつは世界的メンタルヘルスにおいて重要な関心事であり、AIに基づく検出方法の広範な研究を促している。大規模言語モデル(LLM)は、メンタルヘルスケアアプリケーションにおいて、その汎用性において際立っている。マルチモーダル抑うつ検出のためのLLMフレームワークに音声情報を統合するための革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-02-17T09:39:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。