Fugu-MT 論文翻訳(概要): Benchmarking Motivational Interviewing Competence of Large Language Models

論文の概要: Benchmarking Motivational Interviewing Competence of Large Language Models

arxiv url: http://arxiv.org/abs/2603.03846v1
Date: Wed, 04 Mar 2026 08:56:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.240429
Title: Benchmarking Motivational Interviewing Competence of Large Language Models
Title（参考訳）: 大規模言語モデルのモチベーション面接能力のベンチマーク
Authors: Aishwariya Jha, Prakrithi Shivaprakash, Lekhansh Shukla, Animesh Mukherjee, Prabhat Chand, Pratima Murthy,
Abstract要約: モチベーション・インタビュー(MI)は物質使用障害の行動変化を促進する。その忠実度は、Motivational Interviewing Treatment Integrity (MITI)フレームワークを用いて測定される。 LMArenaから3つのプロプライエタリなLLMと7つのオープンソースLLMをリストアップし、2つのデータセット上でMITI 4.2フレームワークを使用してパフォーマンスを評価した。我々は,2人の独立精神科医を用いて,ヒト-vs-LLM反応の識別性実験を行った。
参考スコア（独自算出の注目度）: 3.640688858400333
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Motivational interviewing (MI) promotes behavioural change in substance use disorders. Its fidelity is measured using the Motivational Interviewing Treatment Integrity (MITI) framework. While large language models (LLMs) can potentially generate MI-consistent therapist responses, their competence using MITI is not well-researched, especially in real world clinical transcripts. We aim to benchmark MI competence of proprietary and open-source models compared to human therapists in real-world transcripts and assess distinguishability from human therapists. Methods: We shortlisted 3 proprietary and 7 open-source LLMs from LMArena, evaluated performance using MITI 4.2 framework on two datasets (96 handcrafted model transcripts, 34 real-world clinical transcripts). We generated parallel LLM-therapist utterances iteratively for each transcript while keeping client responses static, and ranked performance using a composite ranking system with MITI components and verbosity. We conducted a distinguishability experiment with two independent psychiatrists to identify human-vs-LLM responses. Results: All 10 tested LLMs had fair (MITI global scores >3.5) to good (MITI global scores >4) competence across MITI measures, and three best-performing models (gemma-3-27b-it, gemini-2.5-pro, grok-3) were tested on real-world transcripts. All showed good competence, with LLMs outperforming human-expert in Complex Reflection percentage (39% vs 96%) and Reflection-Question ratio (1.2 vs >2.8). In the distinguishability experiment, psychiatrists identified LLM responses with only 56% accuracy, with d-prime: 0.17 and 0.25 for gemini-2.5-pro and gemma-3-27b-it respectively. Conclusion: LLMs can achieve good MI proficiency in real-world clinical transcripts using MITI framework. These findings suggest that even open-source LLMs are viable candidates for expanding MI counselling sessions in low-resource settings.
Abstract（参考訳）: モチベーション・インタビュー(MI)は物質使用障害の行動変化を促進する。その忠実度は、Motivational Interviewing Treatment Integrity (MITI)フレームワークを用いて測定される。大規模言語モデル(LLM)はMI一貫性のセラピスト反応を誘発する可能性があるが、MITIを用いた能力はよく研究されていない。本研究の目的は,現実世界のテキストにおけるヒトセラピストと比較して,プロプライエタリモデルとオープンソースモデルのMI能力のベンチマークを行い,ヒトセラピストとの差別性を評価することである。方法: LMArenaから3つのプロプライエタリおよび7つのオープンソースLCMをショートリストし、2つのデータセット上でのMITI 4.2フレームワーク(96個の手作りモデル転写書、34個の実世界の臨床転写書)による性能評価を行った。我々は,クライアント応答を静的に保ちつつ,各文字に対して並列LLM-セラピスト発話を反復的に生成し,MITI成分と冗長性を備えた複合ランキングシステムを用いて評価を行った。 2人の独立した精神科医を対象に,ヒト-vs-LLM反応の同定実験を行った。結果: 実験用LLM10種はすべて, MITI測度間で有意(MITI Global scores >3.5)と有意(MITI Global scores >4)の有意(MITI Global scores >4)を有し, 実世界の転写産物に対して, 3つの最高の性能モデル(gemma-3-27b-it, gemini-2.5-pro, grok-3)を試験した。 LLMは複雑な反射率(39%対96%)と反射-探究比(1.2対2.8)で人間専門家を上回った。識別性実験では、精神科医は、それぞれgemini-2.5-pro と gemma-3-27b-it の d-prime: 0.17 と 0.25 の LLM 応答を56% の精度で同定した。結論: LLM は,MITI フレームワークを用いて実世界の臨床転写書において良好なMI 能を達成できる。これらの結果から,オープンソース LLM でさえ,低リソース環境におけるMIカウンセリングセッションの拡大に有効な候補であることが示唆された。

関連論文リスト

Automatic Replication of LLM Mistakes in Medical Conversations [0.0]
MedMistakeは、LCMが患者と医師の会話で犯した誤りを抽出し、それらを単発QAペアのベンチマークに変換する自動パイプラインである。私たちは、3,390枚のシングルショットQAペアからなるデータセットであるMedMistake-Allをリリースした。 GPTモデルであるClaudeとGrokは、MedMistake-Benchで最高のパフォーマンスを得た。
論文参考訳（メタデータ） (2025-12-24T06:17:21Z)
Toward expert-level motivational interviewing for health behavior improvement with LLMs [17.267453197266715]
モチベーション・インタヴュー(MI)は、健康行動の変化を促進する効果的なカウンセリング手法であるが、その影響は高度に訓練された人間カウンセラーの必要性によって制限されている。本研究は,MI-LLMのための大規模言語モデルの開発と評価である。 3台の中国製オープンソース LLM がこのコーパスに微調整され、MI-LLM と命名された。
論文参考訳（メタデータ） (2025-12-17T13:43:26Z)
RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文参考訳（メタデータ） (2025-11-27T07:20:52Z)
Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文参考訳（メタデータ） (2025-11-13T08:13:23Z)
Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-09-16T16:54:35Z)
Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-08-19T21:11:11Z)
Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge [7.064104563689608]
大規模言語モデル (LLM) は, 生物医学的関係抽出において顕著な性能を示した。本稿では, LLMs-as-the-Judgeをバイオメディカルな関係抽出のための代替評価法として利用することを検討した。
論文参考訳（メタデータ） (2025-06-01T02:01:52Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文参考訳（メタデータ） (2025-01-21T04:05:45Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。