論文の概要: Fine Tuning Large Language Models to Deliver CBT for Depression
- arxiv url: http://arxiv.org/abs/2412.00251v1
- Date: Fri, 29 Nov 2024 20:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:43:14.343202
- Title: Fine Tuning Large Language Models to Deliver CBT for Depression
- Title(参考訳): 抑うつのためのCBTを実現するための微調整大言語モデル
- Authors: Talha Tahir,
- Abstract要約: 認知行動療法(Cognitive Behavioral Therapy, CBT)は、主要なうつ病に対するエビデンスベースの治療法である。
CBTにアクセスする個人には、コスト、セラピストの不足、スティグマなど、大きな障壁がある。
本研究では、細調整された小型オープン言語モデル(LLM)が抑うつにCBTを実現する可能性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Cognitive Behavioral Therapy (CBT) is a well-established, evidence-based treatment for Major Depressive Disorder. Unfortunately, there exist significant barriers to individuals accessing CBT, including cost, scarcity of therapists and stigma. This study explores the feasibility of fine-tuning small open weight large language models (LLMs) to deliver CBT for depression. Using 58 sets of synthetic CBT transcripts generated by the Nous Research fine-tune of Llama 3.1 405b, we fine-tuned three models: Mistral 7b v0.3, Qwen 2.5 7b, and Llama 3.1 8b. CBT fidelity was evaluated through a modified Cognitive Therapy Rating Scale (CTRS). All fine-tuned models were compared against each other, as well as their instruct-tuned variants. Simulated patient transcripts were generated for the purpose of evaluating model performance, with the instruct and CBT-tuned models acting as the therapist and DeepSeek-V2.5 acting as the patient. These simulated transcripts were evaluated on a modified CTRS by Gemini 1.5 Pro-002. Our findings demonstrated that the CBT-tuned models significantly outperformed their instruct-tuned counterparts, with an average improvement of 11.33 points (p < 0.001) on total CTRS score. Llama 3.1 8b had the strongest performance (mean CTRS score 67.86 +/- 7.24), followed by Qwen 2.5 7b (64.28 +/- 9.55) and Mistral 7b v0.3 (64.17 +/- 9.79), with these differences between models being statistically significant. The CBT-tuned models were competent in implementing core CBT techniques and providing empathetic responses, however, there were limitations observed in agenda adherence, exploration depth and long-context coherence. This study establishes that CBT specific fine-tuning can effectively encode therapeutic competencies in small LLMs, though significant technical and ethical considerations must be resolved prior to clinical deployment.
- Abstract(参考訳): 認知行動療法(Cognitive Behavioral Therapy, CBT)は、うつ病の主要な疾患である。
残念ながら、CBTにアクセスする個人には、コスト、セラピストの不足、スティグマなど、大きな障壁がある。
本研究では, 小型オープンウェイト大言語モデル (LLM) による抑うつに対するCBTの実現可能性について検討した。
Llama 3.1 405bのNous Researchファインチューンによって生成された58種類の合成CBT転写産物を用いて、Mistral 7b v0.3、Qwen 2.5 7b、Llama 3.1 8bの3つのモデルを微調整した。
CBTの忠実度はCTRS (Modified Cognitive Therapy Rating Scale) を用いて評価した。
全ての微調整されたモデルは互いに比較され、インストラクションされた派生型も比較された。
模擬患者転写書は, モデル性能を評価するために作成され, インストラクションおよびCBT調整モデルがセラピストとして機能し, DeepSeek-V2.5が患者として機能する。
これらの模擬転写はGemini 1.5 Pro-002によりCTRSを用いて評価された。
以上の結果より,CTRSスコアの11.33点 (p < 0.001) の平均改善率はCBT調整モデルよりも有意に優れていた。
Llama 3.1 8bは最高性能(平均CTRSスコア67.86 +/- 7.24)で、続いてQwen 2.5 7b (64.28 +/- 9.55)とMistral 7b v0.3 (64.17 +/- 9.79)が続いた。
CBTで調整されたモデルは、コアCBT技術の実装や共感的な応答を提供するのに適していたが、アジェンダの順守、探索深さ、長文コヒーレンスに制限があった。
本研究は、CBT特異的微調整が、臨床展開前に重要な技術的・倫理的考慮事項を解決しなければならないものの、小さなLSMにおける治療能力を効果的に符号化できることを証明している。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy [67.23830698947637]
認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案する。
我々は, CBT-BENCHにおける3段階の課題を含む: I: 基本的CBT知識獲得, 複数選択質問のタスク; II: 認知的モデル理解, 認知的歪み分類, 主根的信念分類, きめ細かい中核信念分類のタスク; III: 治療的応答生成, CBTセラピーセッションにおける患者音声に対する応答生成のタスク。
実験結果から,LLMはCBT知識のリサイティングに優れるが,複雑な実世界のシナリオでは不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-17T04:52:57Z) - Dialectical Behavior Therapy Approach to LLM Prompting [1.433758865948252]
大規模言語モデルは、チェーン・オブ・シンクレット(CoT)プロンプト技術を適用する際に、様々な推論タスクに対して最先端の結果を示した。
弁証的行動療法(DBT)にインスパイアされた新しいプロンプト戦略を提案する。
提案手法を応用したプロンプトにより,より小さなモデルにおける結果が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-10-10T09:58:03Z) - CACER: Clinical Concept Annotations for Cancer Events and Relations [22.866006682711284]
本研究は,48,000件以上の医学的問題と薬物イベントに対する微粒な注釈付き新規コーパスCACERについて紹介する。
微調整および文脈内学習を用いたトランスフォーマーに基づく情報抽出モデルの開発と評価を行う。
論文 参考訳(メタデータ) (2024-09-05T20:42:35Z) - BISeizuRe: BERT-Inspired Seizure Data Representation to Improve Epilepsy Monitoring [13.35453284825286]
本研究では,BERTモデルを用いた脳波による発作検出の新しい手法を提案する。
BENDRは2段階のトレーニングプロセス、事前トレーニング、微調整を行う。
最適化されたモデルでは性能が大幅に向上し、0.23 FP/h、2.5$times$はベースラインモデルよりも低く、感度は低いが許容できる。
論文 参考訳(メタデータ) (2024-06-27T14:09:10Z) - We Care: Multimodal Depression Detection and Knowledge Infused Mental Health Therapeutic Response Generation [41.09752906121257]
拡張D-vlogデータセットは1,261のYouTube vlogのコレクションを含む。
本稿では,認知行動療法(Cognitive Behavioral Therapy, CBT)をベースとした, メンタルヘルス患者の初期接触として機能する仮想エージェントについて紹介する。
私たちのMistralモデルは歪み評価と分類で70.1%、30.9%、ベルトスコア88.7%を達成しました。
論文 参考訳(メタデータ) (2024-06-15T08:41:46Z) - Attention-based Saliency Maps Improve Interpretability of Pneumothorax
Classification [52.77024349608834]
視覚変換器(ViT)の胸部X線撮影(CXR)分類性能と注意ベース唾液の解釈可能性について検討する。
ViTは、CheXpert、Chest X-Ray 14、MIMIC CXR、VinBigDataの4つの公開データセットを用いて、肺疾患分類のために微調整された。
ViTsは最先端のCNNと比べてCXR分類AUCに匹敵するものであった。
論文 参考訳(メタデータ) (2023-03-03T12:05:41Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Multi-institutional Validation of Two-Streamed Deep Learning Method for
Automated Delineation of Esophageal Gross Tumor Volume using planning-CT and
FDG-PETCT [14.312659667401302]
食道悪性腫瘍容積(GTV)コントゥーリングの現況は,高作業コストとユーザ間の変動を手作業で記述することに依存している。
1施設で開発された深層学習(DL)多モード食道GTVコンチューリングモデルの臨床的応用性を検証する。
論文 参考訳(メタデータ) (2021-10-11T13:56:09Z) - Transfer Learning improves MI BCI models classification accuracy in
Parkinson's disease patients [50.591267188664666]
運動運動に基づくBCI(MIBCI)は、パーキンソン病患者の能力向上と障害症状の軽減を可能にする。
精度と時間関連キャリブレーションの課題を克服するためには、高度なMotor Imagery BCI法が必要である。
本研究は, PD患者に対するMI BCIの精度向上を目的とした, 転写学習に基づくFBCSPアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-29T19:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。