論文の概要: Reasoning Over Recall: Evaluating the Efficacy of Generalist Architectures vs. Specialized Fine-Tunes in RAG-Based Mental Health Dialogue Systems
- arxiv url: http://arxiv.org/abs/2601.01341v1
- Date: Sun, 04 Jan 2026 03:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.236389
- Title: Reasoning Over Recall: Evaluating the Efficacy of Generalist Architectures vs. Specialized Fine-Tunes in RAG-Based Mental Health Dialogue Systems
- Title(参考訳): RAGに基づくメンタルヘルス対話システムにおけるジェネリストアーキテクチャと特殊ファインチューブの有効性の評価
- Authors: Md Abdullah Al Kafi, Raka Moni, Sumit Kumar Banshal,
- Abstract要約: ChromaDBを使用して,同じRAGパイプラインを通じて4つのオープンソースモデルを運用しています。
ジェネラリストモデルは、共感においてドメイン固有のモデルよりも優れています。
以上の結果から,RAGベースの治療システムにおいては,精神保健専門用語の訓練よりも強い推論が重要であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Language Models (LLMs) in mental health counseling faces the dual challenges of hallucinations and lack of empathy. While the former may be mitigated by RAG (retrieval-augmented generation) by anchoring answers in trusted clinical sources, there remains an open question as to whether the most effective model under this paradigm would be one that is fine-tuned on mental health data, or a more general and powerful model that succeeds purely on the basis of reasoning. In this paper, we perform a direct comparison by running four open-source models through the same RAG pipeline using ChromaDB: two generalist reasoners (Qwen2.5-3B and Phi-3-Mini) and two domain-specific fine-tunes (MentalHealthBot-7B and TherapyBot-7B). We use an LLM-as-a-Judge framework to automate evaluation over 50 turns. We find a clear trend: the generalist models outperform the domain-specific ones in empathy (3.72 vs. 3.26, $p < 0.001$) in spite of being much smaller (3B vs. 7B), and all models perform well in terms of safety, but the generalist models show better contextual understanding and are less prone to overfitting as we observe in the domain-specific models. Overall, our results indicate that for RAG-based therapy systems, strong reasoning is more important than training on mental health-specific vocabulary; i.e. a well-reasoned general model would provide more empathetic and balanced support than a larger narrowly fine-tuned model, so long as the answer is already grounded in clinical evidence.
- Abstract(参考訳): メンタルヘルスカウンセリングにおける大規模言語モデル(LLM)の展開は、幻覚と共感の欠如という2つの課題に直面している。
前者は信頼できる臨床資料に回答を固定することでRAG(retrieval-augmented generation)によって緩和されるが、このパラダイムの下で最も効果的なモデルがメンタルヘルスデータに基づいて微調整されたモデルなのか、それとも推論に基づいて純粋に成功するより一般的で強力なモデルなのかについては、未解決の疑問が残る。
本稿では,ChromaDBとPhi-3-Miniの2つの一般推論器 (Qwen2.5-3B と Phi-3-Mini) とドメイン固有のファインチューン (MentalHealthBot-7B と TherapyBot-7B) を用いて,同一のRAGパイプラインを介して4つのオープンソースモデルを動作させることにより,直接比較を行う。
LLM-as-a-Judgeフレームワークを使用して50回以上の評価を自動化する。
ジェネラリストモデルは、より小さい(3B vs. 7B)にもかかわらず、共感(3.72 vs. 3.26, $p < 0.001$)でドメイン固有のモデルより優れており、すべてのモデルが安全という点で良好に機能するが、ジェネラリストモデルはより文脈的な理解を示し、ドメイン固有のモデルで観察されるように過度に適合する傾向が低い。
以上の結果から,RAGをベースとした治療システムにおいては,精神保健専門用語の訓練よりも強い推論が重要であることが示唆された。
関連論文リスト
- ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Disentangling Reasoning and Knowledge in Medical Large Language Models [23.401484250342158]
大きな言語モデルにおける医学的推論は、臨床医の診断的思考をエミュレートすることを目的としている。
MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実のリコールが混在していることが多い。
バイオメディカルモデル(HuatuoGPT-o1, MedReason, m1)と一般ドメインモデル(DeepSeek-R1, o4-mini, Qwen3)を評価する。
我々は、推論重大例に基づいて微調整と強化学習を用いてBioMed-R1を訓練する。
論文 参考訳(メタデータ) (2025-05-16T17:16:27Z) - MedS$^3$: Towards Medical Slow Thinking with Self-Evolved Soft Dual-sided Process Supervision [42.03114317779815]
Moneは、小規模でデプロイ可能なモデルに堅牢な推論機能を提供する、自己進化型のフレームワークである。
moneは過去の最先端の医療モデルを+6.45の精度で上回り、32Bスケールの汎用推論モデルを+8.57の精度で上回っている。
論文 参考訳(メタデータ) (2025-01-21T11:24:55Z) - Rationale-Guided Retrieval Augmented Generation for Medical Question Answering [24.13056403317349]
大規模言語モデル(LLM)は、バイオメディシンの応用に大きな可能性を秘めている。
RAG$2$は、医学的文脈におけるRAGの信頼性を高めるための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-11-01T01:40:23Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。