論文の概要: When LLMs Meets Acoustic Landmarks: An Efficient Approach to Integrate
Speech into Large Language Models for Depression Detection
- arxiv url: http://arxiv.org/abs/2402.13276v1
- Date: Sat, 17 Feb 2024 09:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 18:35:35.434647
- Title: When LLMs Meets Acoustic Landmarks: An Efficient Approach to Integrate
Speech into Large Language Models for Depression Detection
- Title(参考訳): LLMsがアコースティックランドマークと出会う時:抑うつ検出のための大規模言語モデルへの音声統合のための効率的なアプローチ
- Authors: Xiangyu Zhang, Hexin Liu, Kaishuai Xu, Qiquan Zhang, Daijiao Liu,
Beena Ahmed, Julien Epps
- Abstract要約: 抑うつは世界的メンタルヘルスにおいて重要な関心事であり、AIに基づく検出方法の広範な研究を促している。
大規模言語モデル(LLM)は、メンタルヘルスケアアプリケーションにおいて、その汎用性において際立っている。
マルチモーダル抑うつ検出のためのLLMフレームワークに音声情報を統合するための革新的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 17.871640564898293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depression is a critical concern in global mental health, prompting extensive
research into AI-based detection methods. Among various AI technologies, Large
Language Models (LLMs) stand out for their versatility in mental healthcare
applications. However, their primary limitation arises from their exclusive
dependence on textual input, which constrains their overall capabilities.
Furthermore, the utilization of LLMs in identifying and analyzing depressive
states is still relatively untapped. In this paper, we present an innovative
approach to integrating acoustic speech information into the LLMs framework for
multimodal depression detection. We investigate an efficient method for
depression detection by integrating speech signals into LLMs utilizing Acoustic
Landmarks. By incorporating acoustic landmarks, which are specific to the
pronunciation of spoken words, our method adds critical dimensions to text
transcripts. This integration also provides insights into the unique speech
patterns of individuals, revealing the potential mental states of individuals.
Evaluations of the proposed approach on the DAIC-WOZ dataset reveal
state-of-the-art results when compared with existing Audio-Text baselines. In
addition, this approach is not only valuable for the detection of depression
but also represents a new perspective in enhancing the ability of LLMs to
comprehend and process speech signals.
- Abstract(参考訳): 抑うつは世界的メンタルヘルスにおいて重要な関心事であり、AIに基づく検出方法の広範な研究を促している。
さまざまなAI技術の中で、Large Language Models(LLM)は、メンタルヘルスケアアプリケーションにおける汎用性において際立っている。
しかし、その主な制限は、その全体的な能力を制限するテキスト入力への排他的依存から生じる。
さらに, うつ状態の同定と解析におけるLDMの利用はいまだに未発達である。
本稿では,マルチモーダル抑うつ検出のためのLLMフレームワークに音声情報を統合するための革新的なアプローチを提案する。
音響ランドマークを用いたLLMに音声信号を統合することで抑うつ検出の効率的な手法を検討する。
本手法は,音声の発音に特有なアコースティックなランドマークを組み込むことで,テキストの書き起こしに重要な次元を付加する。
この統合はまた、個人のユニークな音声パターンに関する洞察を与え、個人の潜在的な精神状態を明らかにする。
DAIC-WOZデータセットに対する提案手法の評価により,既存のAudio-Textベースラインと比較して,最先端の結果が得られた。
加えて、このアプローチはうつ病の検出に有用であるだけでなく、llmが音声信号を理解し処理する能力を高める新しい視点を表している。
関連論文リスト
- It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Identification of Cognitive Decline from Spoken Language through Feature
Selection and the Bag of Acoustic Words Model [0.0]
記憶障害の症状の早期発見は、集団の健康確保に重要な役割を担っている。
臨床環境における標準化された音声テストの欠如は、自然音声言語を解析するための自動機械学習技術の開発にますます重点を置いている。
この研究は特徴選択に関するアプローチを示し、ジュネーブの最小音響パラメータセットと相対音声停止から診断に必要な重要な特徴を自動的に選択することを可能にする。
論文 参考訳(メタデータ) (2024-02-02T17:06:03Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z) - DEPAC: a Corpus for Depression and Anxiety Detection from Speech [3.2154432166999465]
本稿では、うつ病と不安スクリーニングツールの確立したしきい値に基づいてラベル付けされた、心的苦痛分析オーディオデータセットDEPACを紹介する。
この大きなデータセットは、個人ごとの複数の音声タスクと、関連する人口統計情報から構成される。
人間の音声における精神疾患の徴候の同定に有効な,手作業による音響的特徴と言語的特徴からなる特徴セットを提案する。
論文 参考訳(メタデータ) (2023-06-20T12:21:06Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Toward Knowledge-Driven Speech-Based Models of Depression: Leveraging
Spectrotemporal Variations in Speech Vowels [10.961439164833891]
抑うつに関連する精神運動士の遅滞は、母音生成の有形差と関連付けられている。
本稿では,母音レベルの音声のスペクトル時間情報を統合し,抑うつを識別する知識駆動機械学習(ML)手法について検討する。
論文 参考訳(メタデータ) (2022-10-05T19:57:53Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。
我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:25:02Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。