論文の概要: The Thinking Therapist: Training Large Language Models to Deliver Acceptance and Commitment Therapy using Supervised Fine-Tuning and Odds Ratio Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.09712v1
- Date: Mon, 08 Sep 2025 02:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.838
- Title: The Thinking Therapist: Training Large Language Models to Deliver Acceptance and Commitment Therapy using Supervised Fine-Tuning and Odds Ratio Policy Optimization
- Title(参考訳): 思考療法士:改訂されたファインチューニングとオッド比政策最適化を用いたアクセプタンス・コミッション・セラピーを提供するための大規模言語モデルの訓練
- Authors: Talha Tahir,
- Abstract要約: アクセプタンス・アンド・コミット・セラピー(Acceptance and Commitment Therapy、ACT)は、認知行動療法の一種で、いくつかの精神疾患において効果の出現を示す。
本研究では,学習後方法論と明示的推論が小規模なオープンウェイト大規模言語モデル(LLM)のACT提供能力に与える影響について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acceptance and Commitment Therapy (ACT) is a third-wave cognitive behavioral therapy with emerging evidence of efficacy in several psychiatric conditions. This study investigates the impact of post-training methodology and explicit reasoning on the ability of a small open-weight large language model (LLM) to deliver ACT. Using 50 sets of synthetic ACT transcripts generated by Mistral-Large, we trained Llama-3.2-3b-Instruct with two distinct approaches, supervised fine-tuning (SFT) and odds ratio policy optimization (ORPO), each with and without an explicit chain-of-thought (COT) reasoning step. Performance was evaluated by comparing these four post-trained variants against the base Instruct model. These models were benchmarked in simulated therapy sessions, with performance quantitatively assessed on the ACT Fidelity Measure (ACT-FM) and the Therapist Empathy Scale (TES) by an LLM judge that had been fine-tuned on human evaluations. Our findings demonstrate that the ORPO-trained models significantly outperformed both their SFT and Instruct counterparts on ACT fidelity ($\chi^2(5) = 185.15, p < .001$) and therapeutic empathy ($\chi^2(5) = 140.37, p < .001$). The effect of COT was conditional as it provided a significant benefit to SFT models, improving ACT-FM scores by an average of 2.68 points ($p < .001$), while offering no discernible advantage to the superior ORPO or instruct-tuned variants. We posit that the superiority of ORPO stems from its ability to learn the therapeutic `process' over imitating `content,' a key aspect of ACT, while COT acts as a necessary scaffold for models trained only via imitation. This study establishes that preference-aligned policy optimization can effectively instill ACT competencies in small LLMs, and that the utility of explicit reasoning is highly dependent on the underlying training paradigm.
- Abstract(参考訳): アクセプタンス・アンド・コミッション・セラピー(Acceptance and Commitment Therapy,ACT)は、認知行動療法の一種で、いくつかの精神疾患において有効性を示す。
本研究では,学習後方法論と明示的推論が小規模なオープンウェイト大規模言語モデル(LLM)のACT提供能力に与える影響について検討した。
Mistral-Large が生成した50 種類の ACT 転写産物を用いて,Llama-3.2-3b-Instruct を教師付き微調整 (SFT) とオッズ比政策最適化 (ORPO) の2つの異なるアプローチで訓練した。
これら4つの訓練後変種をベースインストラクトモデルと比較し,性能評価を行った。
これらのモデルは、人間の評価を微調整したLSM判事によってACT-FM(ACT Fidelity Measure)とTES(Therapist Empathy Scale)で定量的に評価され、シミュレートされたセラピーセッションでベンチマークされた。
以上の結果から, ORPO訓練モデルでは, SFT と ACT の忠実度 (\chi^2(5) = 185.15, p < .001$) と治療的共感 (\chi^2(5) = 140.37, p < .001$) で有意に優れていた。
COTの効果はSFTモデルに大きな利点をもたらし、ACT-FMスコアを平均2.68ポイント(p < .001$)改善した。
ORPOの優位性は、ACTの重要な側面である「コンテント」を模倣する「プロセス」を学習する能力に起因していると仮定し、COTは模倣のみで訓練されたモデルに必要な足場として機能する。
本研究は, 選好整合型政策最適化が小規模なLLMにおいてACT能力を効果的に発揮できること, 明示的推論の有用性が基礎となる学習パラダイムに大きく依存していることを明らかにする。
関連論文リスト
- HEFT: A Coarse-to-Fine Hierarchy for Enhancing the Efficiency and Accuracy of Language Model Reasoning [0.0]
HEFTは、2つの異なるPEFT法を粗い方法で構成する新しい階層的適応戦略である。
HEFT戦略を用いた3つのエポックのみを微調整したモデルでは,20エポックで訓練したモデルの性能を上回る精度が85.17%に達する。
論文 参考訳(メタデータ) (2025-09-11T19:06:46Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Teaching LLMs to Refine with Tools [68.23479664749271]
大規模言語モデル(LLM)はフィードバックに基づいて応答を洗練し、反復的なトレーニングやテスト時間の改良を通じて自己改善を可能にする。
外部ツールを用いて同一または他のLLMによって生成されたチェーン・オブ・シント(CoT)応答を洗練するための新しいアプローチであるCaPを提案する。
論文 参考訳(メタデータ) (2024-12-22T05:43:50Z) - Poor-Supervised Evaluation for SuperLLM via Mutual Consistency [20.138831477848615]
正確なラベルを使わずに評価を行うためのPoEMフレームワークを提案する。
まず、モデルと特定の参照モデルとの整合性によって、モデルの能力が等価に評価できることを証明します。
現実の条件の不整合を緩和するために,人間(利用可能な場合)と参照モデルとして評価中のモデルを扱うアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-25T06:49:03Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Enhancing Large Language Models for Clinical Decision Support by
Incorporating Clinical Practice Guidelines [4.482833270578723]
大規模言語モデル(LLM)は臨床決定支援(CDS)を大幅に改善する
臨床実習ガイドライン(CPG)をLCMに組み込むための3つの方法を開発した。
症例スタディとして、新型コロナウイルスの外来治療のためのCDSに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-20T05:10:46Z) - Individualized Policy Evaluation and Learning under Clustered Network Interference [3.8601741392210434]
本稿では,クラスタ化されたネットワーク干渉下での最適個別処理規則(ITR)の評価と学習の問題点について考察する。
ITRの実証性能を評価するための推定器を提案する。
学習ITRに対する有限サンプル残差を導出し、効率的な評価推定器の使用により学習ポリシーの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-11-04T17:58:24Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。