論文の概要: Evaluating Transparent Reasoning in Large Language Models for Accountable Critical Tasks
- arxiv url: http://arxiv.org/abs/2408.01933v5
- Date: Tue, 24 Jun 2025 03:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 15:36:07.627831
- Title: Evaluating Transparent Reasoning in Large Language Models for Accountable Critical Tasks
- Title(参考訳): 説明責任クリティカルタスクのための大規模言語モデルにおける透明推論の評価
- Authors: Junhao Chen, Bowen Wang, Jiuyang Chang, Yuta Nakashima,
- Abstract要約: 本稿では,大規模言語モデル (LLM) の推論能力を厳格に評価するベンチマークであるREACTを紹介する。
当科から511症例,法科から86症例に注釈を付し,それぞれに専門家が抽出した詳細な根拠と推論過程の各ステップを裏付ける証拠が得られた。
実験により, 推論グラフは従来のベースラインと比較して, LLM推論の解釈可能性や精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 17.736962215696366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces REACT, a benchmark designed to rigorously evaluate the reasoning capabilities of large language models (LLMs) within accountable, high-stakes decision-making tasks in medical and legal domains. Unlike traditional benchmarks primarily focused on prediction accuracy, REACT emphasizes transparent and interpretable reasoning, requiring models to align their logic closely with expert-derived procedures. To assess whether LLM reasoning aligns closely with human experts, we annotated 511 clinical cases from the medical domain and 86 legal cases from the legal domain, each enriched with detailed expert-extracted rationales and evidence supporting each step of the reasoning process. These annotations were guided by carefully constructed reasoning graphs, which explicitly encode domain-specific inference structures and decision criteria derived by domain experts. These reasoning graphs serve not only as standards for expert annotation but also as structured guidelines enabling models to reason transparently and step-by-step. To address the scalability challenges of manual annotation, we further developed a semi-automatic annotation pipeline leveraging expert-defined reasoning graph templates to efficiently generate new graphs, exploring the potential to extend our approach into additional critical domains. Experimental results demonstrate that reasoning graphs substantially enhance the interpretability and accuracy of LLM reasoning compared to traditional baselines, although significant gaps remain relative to expert-level reasoning performance.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の推論能力について,医療・法的領域における高精度な意思決定タスクにおいて厳格に評価するベンチマークであるREACTを紹介する。
予測精度に重点を置く従来のベンチマークとは異なり、REACTは透明で解釈可能な推論を強調しており、モデルのロジックを専門家由来の手順と密接に整合させる必要がある。
LLM推論がヒトの専門家と密接に一致しているかどうかを評価するため,医学領域から511例,法領域から86例を注釈し,それぞれに専門家が抽出した詳細な根拠と推論プロセスの各ステップを支持する証拠を蓄積した。
これらのアノテーションは、ドメイン固有の推論構造とドメインの専門家による決定基準を明示的にエンコードする、慎重に構築された推論グラフによってガイドされた。
これらの推論グラフは、専門家アノテーションの標準としてだけでなく、モデルが透過的かつステップバイステップで推論できるように構造化されたガイドラインとしても機能します。
手動アノテーションのスケーラビリティ問題に対処するために、専門家が定義した推論グラフテンプレートを活用して、新しいグラフを効率的に生成する半自動アノテーションパイプラインを開発した。
実験結果から,推理グラフは従来のベースラインと比較してLLM推論の解釈可能性や精度を著しく向上させるが,専門家レベルの推理性能と比較して大きな差は残っていない。
関連論文リスト
- Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文 参考訳(メタデータ) (2024-06-14T11:10:17Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales [15.362903610463285]
本稿では,素早い学習を通して診断過程を合理化する「推論認識」診断フレームワークを提案する。
そこで本研究では,実世界の臨床環境に対する機械生成的合理化の可能性を評価するための新しい基準セットを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:14:45Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - Diagnostic Reasoning Prompts Reveal the Potential for Large Language
Model Interpretability in Medicine [4.773117448586697]
そこで我々は,大言語モデル(LLM)が臨床推論を実行し,正確な診断を行うことができるかどうかを,新たな診断推論プロンプトを開発した。
GPT4は診断精度を犠牲にすることなく臨床医の一般的な臨床推論過程を模倣することができる。
論文 参考訳(メタデータ) (2023-08-13T19:04:07Z) - VBridge: Connecting the Dots Between Features, Explanations, and Data
for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。
我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。
症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文 参考訳(メタデータ) (2021-08-04T17:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。