Fugu-MT 論文翻訳(概要): Automated Clinical Report Generation for Remote Cognitive Remediation: Comparing Knowledge-Engineered Templates and LLMs in Low-Resource Settings

論文の概要: Automated Clinical Report Generation for Remote Cognitive Remediation: Comparing Knowledge-Engineered Templates and LLMs in Low-Resource Settings

arxiv url: http://arxiv.org/abs/2605.06594v1
Date: Thu, 07 May 2026 17:20:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:12.031333
Title: Automated Clinical Report Generation for Remote Cognitive Remediation: Comparing Knowledge-Engineered Templates and LLMs in Low-Resource Settings
Title（参考訳）: リモート認知修復のための自動臨床報告生成:低リソース環境における知識工学的テンプレートとLCMの比較
Authors: Yongxin Zhou, Fabien Ringeval, François Portet,
Abstract要約: 本稿では,アバター誘導型ホームベース認知修復セッションの低リソース環境における自動臨床報告生成について検討する。本稿では,(1)言語治療領域の知識を明示的な決定規則として符号化するルールベースのテンプレートシステムと,(2)より流動的で簡潔な出力を目的としたゼロショットLCMベースのアプローチ(GPT-4)を提案する。結果,臨床信頼性と言語学的品質の間には明確なトレードオフがみられ,GPT-4はより簡潔なアウトプットを生み出す一方,テンプレートベースシステムは流動性,コヒーレンス,結果提示により高いスコアを付けた。
参考スコア（独自算出の注目度）: 4.406830461180521
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The growing demand for cognitive remediation therapy, combined with limited speech therapist availability, has accelerated the adoption of remote rehabilitation tools. These systems generate large volumes of interaction data that are difficult for clinicians to review efficiently. This paper investigates automated clinical report generation for avatar-guided, home-based cognitive remediation sessions in a low-resource setting with no reference reports. We present and compare two approaches: (1) a rule-based template system encoding speech therapy domain knowledge as explicit decision rules and validated templates, ensuring clinical reliability and traceability; and (2) a zero-shot LLM-based approach (GPT-4) aimed at more fluent and concise output. Both systems use identical pre-extracted, expert-validated structured variables, enabling a controlled factual comparison. Outputs were evaluated by eight speech therapists and final-year students using a nine-criterion questionnaire. Results reveal a clear trade-off between clinical reliability and linguistic quality. The template-based system scored higher on fluidity, coherence, and results presentation, while GPT-4 produced more concise output. Directional differences are consistent across evaluation dimensions, though no comparison reached statistical significance after correction, reflecting the scale constraints of expert clinical evaluation. Based on evaluator feedback, we derive eight design recommendations for clinical reporting systems in remote rehabilitation settings. More broadly, this work contributes a replicable methodology combining expert elicitation, taxonomy-driven generation, and multi-dimensional human evaluation for clinical NLG in low-resource settings, and illustrates how controlled comparisons can inform the responsible adoption of generative AI in healthcare.
Abstract（参考訳）: 認知修復療法の需要が増加し、音声セラピストの可用性が制限されたことにより、遠隔リハビリテーションツールの採用が加速した。これらのシステムは、臨床医が効率よくレビューすることが難しい大量の相互作用データを生成する。本稿では,アバター誘導型ホームベース認知修復セッションの低リソース環境における自動臨床報告生成について検討する。本稿では,(1) 言語治療領域の知識を明示的な決定規則として符号化するルールベーステンプレートシステムと,(2) より流動的で簡潔な出力を目的としたゼロショットLCMベースのアプローチ(GPT-4)を提示し,比較する。どちらのシステムも、同じ事前抽出された専門家検証された構造化変数を使用し、制御された事実比較を可能にする。 8名の音声セラピストと最終年度の学生を対象に,9項目のアンケートによる評価を行った。その結果,臨床的信頼性と言語学的品質のトレードオフが明らかとなった。テンプレートベースのシステムでは流動性、コヒーレンス、結果の提示が向上し、GPT-4ではより簡潔な出力が得られた。方向性差は評価範囲間で一致しているが, 専門的臨床評価のスケール制約を反映して, 補正後の統計的意義は得られなかった。評価者からのフィードバックに基づき,遠隔リハビリテーションにおける臨床報告システムの設計勧告8項目を導出した。より広範に、この研究は専門家の誘因、分類学による生成、低リソース環境における臨床NLGの多次元人為的評価を組み合わせた再現性のある方法論に寄与し、制御された比較が医療における生成AIの採用に責任があるかを示す。

関連論文リスト

Detecting Clinical Discrepancies in Health Coaching Agents: A Dual-Stream Memory and Reconciliation Architecture [71.46525715889656]
汎用エージェントメモリシステムは、ユーザの最新のステートメントで古い事実を上書きすることでコヒーレンスを最適化する。本稿では,患者の物語を構造化された臨床記録から厳密に分離するDual-Stream Memory Architectureを提案する。 675日間のウェルネスコーチングセッションにおいて,26名の患者を対象にこのアーキテクチャを評価した。
論文参考訳（メタデータ） (2026-04-29T17:59:28Z)
A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T18:48:21Z)
ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文参考訳（メタデータ） (2025-12-29T12:58:58Z)
A Multi-faceted Analysis of Cognitive Abilities: Evaluating Prompt Methods with Large Language Models on the CONSORT Checklist [1.1731001328350983]
本研究では,専門家検証データセットを用いた行動・メタ認知分析手法を適用した。メトリクスを用いた認知適応と校正誤差の分析:予測誤差(ECE)とベースライン正規化相対誤差(RCE) 以上の結果より, 両モデルとも, 特に臨床ロールプレイング条件下では, 誤診や過信感が顕著であった。
論文参考訳（メタデータ） (2025-10-22T00:15:02Z)
Retrieval-Augmented Framework for LLM-Based Clinical Decision Support [0.19999259391104388]
本稿では,大言語モデル(LLM)を用いた臨床意思決定支援システムを提案する。このフレームワークは自然言語処理と構造化された臨床入力を統合し、文脈に関連のあるレコメンデーションを生成する。本稿では,表現表現のアライメントや生成戦略など,システムの技術的コンポーネントについて概説する。
論文参考訳（メタデータ） (2025-10-01T18:45:25Z)
Revisiting Rule-Based Stuttering Detection: A Comprehensive Analysis of Interpretable Models for Clinical Applications [5.692357910541593]
本稿では,ルールに基づく散乱検出システムについて包括的な解析を行う。本稿では,発話速度正規化,マルチレベル音響特徴分析,階層的決定構造を組み込んだルールベースフレームワークを提案する。規則に基づくシステムは特に延長検出(97～99%の精度)に優れ、様々な発話速度で安定した性能を提供することを示した。
論文参考訳（メタデータ） (2025-08-21T15:01:05Z)
GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。 GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文参考訳（メタデータ） (2025-03-07T11:42:22Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。 6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。