論文の概要: Exploring Machine Learning and Language Models for Multimodal Depression Detection
- arxiv url: http://arxiv.org/abs/2508.20805v1
- Date: Thu, 28 Aug 2025 14:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.435294
- Title: Exploring Machine Learning and Language Models for Multimodal Depression Detection
- Title(参考訳): マルチモーダル抑うつ検出のための機械学習と言語モデルの検討
- Authors: Javier Si Zhao Hong, Timothy Zoe Delaya, Sherwyn Chan Yin Kit, Pai Chet Ng, Xiaoxiao Miao,
- Abstract要約: 本稿では,第1回マルチモーダル・パーソナリティ・アウェア・デプレッション検出チャレンジへのアプローチを提案する。
我々は,音声,ビデオ,テキスト機能において,XGBoost,トランスフォーマーベースのアーキテクチャ,および大規模言語モデル(LLM)の性能を探索し比較する。
本研究は,モダリティにまたがる抑うつ関連信号の捉え方について,各モデルの強みと限界を強調した。
- 参考スコア(独自算出の注目度): 8.357574678947245
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents our approach to the first Multimodal Personality-Aware Depression Detection Challenge, focusing on multimodal depression detection using machine learning and deep learning models. We explore and compare the performance of XGBoost, transformer-based architectures, and large language models (LLMs) on audio, video, and text features. Our results highlight the strengths and limitations of each type of model in capturing depression-related signals across modalities, offering insights into effective multimodal representation strategies for mental health prediction.
- Abstract(参考訳): 本稿では,機械学習とディープラーニングモデルを用いたマルチモーダル抑うつ検出に焦点をあて,最初のマルチモーダル・パーソナリティ・アウェア・デプレッション検出へのアプローチを提案する。
我々は,音声,ビデオ,テキスト機能において,XGBoost,トランスフォーマーベースのアーキテクチャ,および大規模言語モデル(LLM)の性能を探索し比較する。
本研究は、精神保健予測のための効果的なマルチモーダル表現戦略の洞察を提供し、モダリティ全体にわたる抑うつ関連信号の捕捉における各モデルの強みと限界を強調した。
関連論文リスト
- MDD-Net: Multimodal Depression Detection through Mutual Transformer [1.18749525824656]
うつ病は、個人の感情と身体の健康に深刻な影響を及ぼす主要な精神状態である。
本研究では,マルチモーダル圧縮検出ネットワーク(MDD-Net)を提案する。
開発されたマルチモーダルうつ病検出ネットワークは、F1スコアの最先端を最大17.37%超える。
論文 参考訳(メタデータ) (2025-08-11T15:32:56Z) - Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。
強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。
私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文 参考訳(メタデータ) (2025-05-05T08:52:49Z) - Generating Medically-Informed Explanations for Depression Detection using LLMs [1.325953054381901]
ソーシャルメディアデータからうつ病を早期に検出することは、タイムリーな介入の貴重な機会となる。
本稿では,LLM-MTD(Large Language Model for Multi-Task Depression Detection)を提案する。
論文 参考訳(メタデータ) (2025-03-18T19:23:22Z) - Context-Aware Deep Learning for Multi Modal Depression Detection [41.02897689721331]
マルチモーダル機械学習(ML)を用いた臨床面接からうつ病を自動的に検出するアプローチに焦点をあてる。
本研究では,(1)テキストデータに対するトピックモデリングに基づくデータ拡張と,(2)音響特徴モデリングのための深部1次元畳み込みニューラルネットワーク(CNN)を組み合わせた新しい手法を提案する。
我々のディープ1D CNNとトランスフォーマーモデルはそれぞれ、オーディオとテキストのモダリティの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-12-26T13:19:26Z) - Automated Ensemble Multimodal Machine Learning for Healthcare [52.500923923797835]
本稿では,自動機械学習を用いた構造化臨床(タブラル)データと医用画像の統合を実現するマルチモーダルフレームワークAutoPrognosis-Mを紹介する。
AutoPrognosis-Mには、畳み込みニューラルネットワークとビジョントランスフォーマーを含む17のイメージングモデルと、3つの異なるマルチモーダル融合戦略が含まれている。
論文 参考訳(メタデータ) (2024-07-25T17:46:38Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Multi-Modal Perceiver Language Model for Outcome Prediction in Emergency
Department [0.03088120935391119]
主訴のテキスト情報とトリアージで記録されたバイタルサインに基づいて, 病院救急部門における結果予測と患者トリアージに関心がある。
我々は、いくつかのアプリケーションで有望な結果を示すモダリティに依存しないトランスフォーマーベースのモデルであるPerceiverを適応する。
実験では,テキストやバイタルサインのみを訓練したモデルと比較して,変異モダリティが予測性能を向上させることを示した。
論文 参考訳(メタデータ) (2023-04-03T06:32:00Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Multimodal Depression Severity Prediction from medical bio-markers using
Machine Learning Tools and Technologies [0.0]
うつ病は世界中の精神疾患の主要な原因となっている。
近年,うつ病の診断とステージ予測の自動化に行動的手がかりが用いられている。
ラベル付き行動データセットの欠如と、膨大な量のバリエーションが、タスクを達成する上で大きな課題であることが証明されている。
論文 参考訳(メタデータ) (2020-09-11T20:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。