論文の概要: Reasoning Over Recall: Evaluating the Efficacy of Generalist Architectures vs. Specialized Fine-Tunes in RAG-Based Mental Health Dialogue Systems
- arxiv url: http://arxiv.org/abs/2601.01341v1
- Date: Sun, 04 Jan 2026 03:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.236389
- Title: Reasoning Over Recall: Evaluating the Efficacy of Generalist Architectures vs. Specialized Fine-Tunes in RAG-Based Mental Health Dialogue Systems
- Title(参考訳): RAGに基づくメンタルヘルス対話システムにおけるジェネリストアーキテクチャと特殊ファインチューブの有効性の評価
- Authors: Md Abdullah Al Kafi, Raka Moni, Sumit Kumar Banshal,
- Abstract要約: ChromaDBを使用して,同じRAGパイプラインを通じて4つのオープンソースモデルを運用しています。
ジェネラリストモデルは、共感においてドメイン固有のモデルよりも優れています。
以上の結果から,RAGベースの治療システムにおいては,精神保健専門用語の訓練よりも強い推論が重要であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Language Models (LLMs) in mental health counseling faces the dual challenges of hallucinations and lack of empathy. While the former may be mitigated by RAG (retrieval-augmented generation) by anchoring answers in trusted clinical sources, there remains an open question as to whether the most effective model under this paradigm would be one that is fine-tuned on mental health data, or a more general and powerful model that succeeds purely on the basis of reasoning. In this paper, we perform a direct comparison by running four open-source models through the same RAG pipeline using ChromaDB: two generalist reasoners (Qwen2.5-3B and Phi-3-Mini) and two domain-specific fine-tunes (MentalHealthBot-7B and TherapyBot-7B). We use an LLM-as-a-Judge framework to automate evaluation over 50 turns. We find a clear trend: the generalist models outperform the domain-specific ones in empathy (3.72 vs. 3.26, $p < 0.001$) in spite of being much smaller (3B vs. 7B), and all models perform well in terms of safety, but the generalist models show better contextual understanding and are less prone to overfitting as we observe in the domain-specific models. Overall, our results indicate that for RAG-based therapy systems, strong reasoning is more important than training on mental health-specific vocabulary; i.e. a well-reasoned general model would provide more empathetic and balanced support than a larger narrowly fine-tuned model, so long as the answer is already grounded in clinical evidence.
- Abstract(参考訳): メンタルヘルスカウンセリングにおける大規模言語モデル(LLM)の展開は、幻覚と共感の欠如という2つの課題に直面している。
前者は信頼できる臨床資料に回答を固定することでRAG(retrieval-augmented generation)によって緩和されるが、このパラダイムの下で最も効果的なモデルがメンタルヘルスデータに基づいて微調整されたモデルなのか、それとも推論に基づいて純粋に成功するより一般的で強力なモデルなのかについては、未解決の疑問が残る。
本稿では,ChromaDBとPhi-3-Miniの2つの一般推論器 (Qwen2.5-3B と Phi-3-Mini) とドメイン固有のファインチューン (MentalHealthBot-7B と TherapyBot-7B) を用いて,同一のRAGパイプラインを介して4つのオープンソースモデルを動作させることにより,直接比較を行う。
LLM-as-a-Judgeフレームワークを使用して50回以上の評価を自動化する。
ジェネラリストモデルは、より小さい(3B vs. 7B)にもかかわらず、共感(3.72 vs. 3.26, $p < 0.001$)でドメイン固有のモデルより優れており、すべてのモデルが安全という点で良好に機能するが、ジェネラリストモデルはより文脈的な理解を示し、ドメイン固有のモデルで観察されるように過度に適合する傾向が低い。
以上の結果から,RAGをベースとした治療システムにおいては,精神保健専門用語の訓練よりも強い推論が重要であることが示唆された。
関連論文リスト
- When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。
LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。
本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文 参考訳(メタデータ) (2026-02-27T21:09:43Z) - To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks [56.11584171938381]
心の理論 (ToM) は、モデルが信念、欲望、意図などの隠された精神状態を推測できるかどうかを評価する。
近年のLRM(Large Reasoning Models)の進歩により、数学やコーディングにおけるステップバイステップ推論が向上している。
本研究では,9つの大規模言語モデル(LLM)の体系的研究を行い,推論モデルと非推論モデルを比較した。
論文 参考訳(メタデータ) (2026-02-11T08:16:13Z) - Diagnosing Generalization Failures in Fine-Tuned LLMs: A Cross-Architectural Study on Phishing Detection [0.18472148461613158]
一般化は、アーキテクチャとデータの多様性の強力な相乗効果によって引き起こされる。
いくつかのアーキテクチャは本質的により一般化可能である。
Mistralモデルは、複数のトレーニングパラダイムにまたがる一貫性とレジリエントなパフォーマーであることが証明されている。
論文 参考訳(メタデータ) (2026-01-15T15:51:24Z) - Self-Improving VLM Judges Without Human Annotations [74.29324865147838]
自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。
提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。
これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
論文 参考訳(メタデータ) (2025-12-02T20:52:19Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - ReasonMed: A 370K Multi-Agent Generated Dataset for Advancing Medical Reasoning [54.30630356786752]
ReasonMedは、これまでで最大の医療推論データセットで、370万の高品質な例がある。
マルチエージェント生成、検証、改善プロセスを通じて構築される。
ReasonMedを用いて、簡潔な答えの要約と詳細なCoT推論を統合することで、最も堅牢な微調整結果が得られる。
論文 参考訳(メタデータ) (2025-06-11T08:36:55Z) - Disentangling Reasoning and Knowledge in Medical Large Language Models [23.401484250342158]
大きな言語モデルにおける医学的推論は、臨床医の診断的思考をエミュレートすることを目的としている。
MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実のリコールが混在していることが多い。
バイオメディカルモデル(HuatuoGPT-o1, MedReason, m1)と一般ドメインモデル(DeepSeek-R1, o4-mini, Qwen3)を評価する。
我々は、推論重大例に基づいて微調整と強化学習を用いてBioMed-R1を訓練する。
論文 参考訳(メタデータ) (2025-05-16T17:16:27Z) - Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - MedS$^3$: Towards Medical Slow Thinking with Self-Evolved Soft Dual-sided Process Supervision [42.03114317779815]
Moneは、小規模でデプロイ可能なモデルに堅牢な推論機能を提供する、自己進化型のフレームワークである。
moneは過去の最先端の医療モデルを+6.45の精度で上回り、32Bスケールの汎用推論モデルを+8.57の精度で上回っている。
論文 参考訳(メタデータ) (2025-01-21T11:24:55Z) - Rationale-Guided Retrieval Augmented Generation for Medical Question Answering [24.13056403317349]
大規模言語モデル(LLM)は、バイオメディシンの応用に大きな可能性を秘めている。
RAG$2$は、医学的文脈におけるRAGの信頼性を高めるための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-11-01T01:40:23Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。