論文の概要: Dynamic Summary Generation for Interpretable Multimodal Depression Detection
- arxiv url: http://arxiv.org/abs/2604.11334v1
- Date: Mon, 13 Apr 2026 11:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.504784
- Title: Dynamic Summary Generation for Interpretable Multimodal Depression Detection
- Title(参考訳): 解釈可能なマルチモーダル圧縮検出のための動的概要生成
- Authors: Shiyu Teng, Jiaqing Liu, Hao Sun, Yu Li, Shurong Chai, Ruibo Hou, Tomoko Tateyama, Lanfen Lin, Yen-Wei Chen,
- Abstract要約: スティグマと主観的症状が信頼できるスクリーニングを妨げているため、うつ病は広く診断され治療されていない。
本稿では,大規模言語モデルを用いて高精度かつ解釈可能な検出を行う,粗大なマルチステージフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.358673852385337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depression remains widely underdiagnosed and undertreated because stigma and subjective symptom ratings hinder reliable screening. To address this challenge, we propose a coarse-to-fine, multi-stage framework that leverages large language models (LLMs) for accurate and interpretable detection. The pipeline performs binary screening, five-class severity classification, and continuous regression. At each stage, an LLM produces progressively richer clinical summaries that guide a multimodal fusion module integrating text, audio, and video features, yielding predictions with transparent rationale. The system then consolidates all summaries into a concise, human-readable assessment report. Experiments on the E-DAIC and CMDC datasets show significant improvements over state-of-the-art baselines in both accuracy and interpretability.
- Abstract(参考訳): スティグマと主観的症状が信頼できるスクリーニングを妨げているため、うつ病は広く診断され治療されていない。
この課題に対処するために,大規模言語モデル(LLM)を利用して,高精度かつ解釈可能な検出を行う,粗大なマルチステージフレームワークを提案する。
パイプラインはバイナリスクリーニング、5クラスの重度分類、継続的な回帰を実行する。
各段階において、LCMは、テキスト、オーディオ、ビデオの特徴を統合するマルチモーダル融合モジュールを導く、徐々にリッチな臨床要約を生成し、透明な合理性で予測する。
システムはすべての要約を、簡潔で読みやすい評価レポートに統合する。
E-DAICデータセットとCMDCデータセットの実験は、精度と解釈可能性の両方において最先端のベースラインよりも大幅に改善されている。
関連論文リスト
- Less Is More? Selective Visual Attention to High-Importance Regions for Multimodal Radiology Summarization [2.0037149928499827]
ViTASは、アンサンブル誘導MedSAM2肺セグメンテーション、マルチビュー融合のためのクロスアテンション、シェープ誘導適応パッチクラスタリング、ViTを供給している階層的視覚トークン化を組み合わせた多段階パイプラインである。
以上の結果から,マルチモーダルラジオグラフィーの要約では,より関連性の高い視覚入力が十分であるだけでなく,優れていることが示唆された。
論文 参考訳(メタデータ) (2026-03-31T15:47:01Z) - Cross-Linguistic Persona-Driven Data Synthesis for Robust Multimodal Cognitive Decline Detection [20.599682298329213]
我々は、制御可能なゼロショットマルチモーダルデータ合成とChain-of-Thought deductionファインチューニングを統合する新しいフレームワークであるSynCogを紹介する。
この生成パラダイムは、様々な言語にまたがる臨床コーパスの迅速でゼロショット展開を可能にする。
ADReSSとADReSSoベンチマークの実験は、限られた臨床データを合成表現型で増強することで、競争力のある診断性能が得られることを示した。
論文 参考訳(メタデータ) (2026-02-08T14:10:05Z) - Liver Fibrosis Quantification and Analysis: The LiQA Dataset and Baseline Method [31.756744402295542]
LiQAデータセットは、複雑な実環境下でLiver(LiSeg)とLiver Fibrosis Staging(LiFS)のアルゴリズムをベンチマークするためにキュレートされる。
本稿では, 半教師付き学習フレームワークと外部データを統合し, 頑健なセグメンテーションを実現する。
論文 参考訳(メタデータ) (2025-12-08T15:44:24Z) - Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion and Large Language Models [6.2676602262188625]
本稿では、Parkinsonian Gaitパターンを認識するために、RGBとDepth(RGB-D)データを統合した説明可能なマルチモーダルフレームワークを提案する。
本研究は,多モーダル特徴学習と言語に基づく解釈可能性を組み合わせることで,視覚認識と臨床的理解のギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-12-04T03:43:43Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - Robust Brain Tumor Segmentation with Incomplete MRI Modalities Using Hölder Divergence and Mutual Information-Enhanced Knowledge Transfer [10.66488607852885]
不完全なモダリティであっても高いセグメンテーション精度を実現する頑健な単一モード並列処理フレームワークを提案する。
モデルでは、利用可能な入力に基づいてネットワークパラメータを動的に調整しながら、モダリティ固有の特徴を維持している。
これらのばらつきと情報に基づく損失関数を用いることで、このフレームワークは予測と地味ラベルの差異を効果的に定量化する。
論文 参考訳(メタデータ) (2025-07-02T00:18:07Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。