Fugu-MT 論文翻訳(概要): Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation

論文の概要: Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation

arxiv url: http://arxiv.org/abs/2501.06741v1
Date: Sun, 12 Jan 2025 07:30:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 21:19:24.936679
Title: Hierarchical Divide-and-Conquer for Fine-Grained Alignment in LLM-Based Medical Evaluation
Title（参考訳）: LLMを用いた細粒度アライメントのための階層的分割コンバータ
Authors: Shunfan Zheng, Xiechi Zhang, Gerard de Melo, Xiaoling Wang, Linlin Wang,
Abstract要約: HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。このフレームワークは複雑な評価タスクを専門的なサブタスクに分解し、それぞれがエキスパートモデルによって評価される。この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。
参考スコア（独自算出の注目度）: 31.061600616994145
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the rapidly evolving landscape of large language models (LLMs) for medical applications, ensuring the reliability and accuracy of these models in clinical settings is paramount. Existing benchmarks often focus on fixed-format tasks like multiple-choice QA, which fail to capture the complexity of real-world clinical diagnostics. Moreover, traditional evaluation metrics and LLM-based evaluators struggle with misalignment, often providing oversimplified assessments that do not adequately reflect human judgment. To address these challenges, we introduce HDCEval, a Hierarchical Divide-and-Conquer Evaluation framework tailored for fine-grained alignment in medical evaluation. HDCEval is built on a set of fine-grained medical evaluation guidelines developed in collaboration with professional doctors, encompassing Patient Question Relevance, Medical Knowledge Correctness, and Expression. The framework decomposes complex evaluation tasks into specialized subtasks, each evaluated by expert models trained through Attribute-Driven Token Optimization (ADTO) on a meticulously curated preference dataset. This hierarchical approach ensures that each aspect of the evaluation is handled with expert precision, leading to a significant improvement in alignment with human evaluators.
Abstract（参考訳）: 医学応用のための大規模言語モデル(LLM)の急速な発展の中で、臨床現場におけるこれらのモデルの信頼性と正確性を保証することが最重要である。既存のベンチマークでは、実際の臨床診断の複雑さを捉えるのに失敗する多重選択QAのような固定形式のタスクにフォーカスすることが多い。さらに、従来の評価指標とLLMに基づく評価指標は、しばしば人間の判断を適切に反映しない過度に単純化された評価を提供する。これらの課題に対処するために,医療評価におけるきめ細かい調整に適した階層的分枝・コンカヤ評価フレームワークであるHDCEvalを紹介する。 HDCEvalは、専門医とのコラボレーションによって開発された、きめ細かい医療評価ガイドラインに基づいて構築されている。このフレームワークは、複雑な評価タスクを専門のサブタスクに分解し、それぞれが慎重にキュレートされた選好データセット上で、属性駆動のトークン最適化(ADTO)によって訓練されたエキスパートモデルによって評価される。この階層的なアプローチは、評価の各側面が専門家の精度で扱われることを保証する。

関連論文リスト

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels [39.33170904610862]
大規模言語モデル(LLM)は、病気の予防、臨床的意思決定、長期ケアにまたがる約束を示す健康管理にますます応用されている。 ClinConsensusは、臨床専門家がキュレートし、検証し、品質を制御した中国の医療ベンチマークである。 ClinConsensusは、予防と介入から長期フォローアップまで、ケアの全期間にわたる2500件のオープンエンドケースで構成されており、36の専門医、12の共通臨床タスクタイプ、そして徐々に複雑さのレベルが増大している。
論文参考訳（メタデータ） (2026-03-02T17:17:18Z)
AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文参考訳（メタデータ） (2026-01-23T11:59:13Z)
MedConsultBench: A Full-Cycle, Fine-Grained, Process-Aware Benchmark for Medical Consultation Agents [10.109613967215447]
MedConsultBenchは,オンラインコンサルテーションサイクルの完全な評価を目的とした総合的なフレームワークである。本手法では,臨床情報取得をサブターンレベルで追跡するために,AIU(Atomic Information Units)を導入している。オンラインコンサルティングに固有の不明瞭さと曖昧さに対処することで、このベンチマークは不確実性を認識しながら簡潔な調査を評価する。
論文参考訳（メタデータ） (2026-01-19T02:18:10Z)
MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文参考訳（メタデータ） (2026-01-06T13:56:33Z)
MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文参考訳（メタデータ） (2025-10-24T02:11:05Z)
Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文参考訳（メタデータ） (2025-08-11T13:08:07Z)
From Feedback to Checklists: Grounded Evaluation of AI-Generated Clinical Notes [26.750112195124284]
本稿では,実際のユーザフィードバックを構造化されたチェックリストに抽出してノート評価を行うパイプラインを提案する。 21,000人以上の臨床経験から得られた特定データを用いて,フィードバックに基づくチェックリストがベースラインアプローチより優れていることを示す。オフラインの調査設定では、チェックリストは、選択した品質閾値以下になる可能性のあるメモを特定するのに役立つ。
論文参考訳（メタデータ） (2025-07-23T17:28:31Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
A Scalable Framework for Evaluating Health Language Models [16.253655494186905]
大規模言語モデル(LLM)は、複雑なデータセットを分析する強力なツールとして登場した。オープンエンドテキスト応答の現在の評価実践は、人間の専門家に大きく依存している。この研究はAdaptive Precise Boolean rubrics(リンク)を紹介している。
論文参考訳（メタデータ） (2025-03-30T06:47:57Z)
GPBench: A Comprehensive and Fine-Grained Benchmark for Evaluating Large Language Models as General Practitioners [12.208184074411896]
一般開業医(GP)は、継続的かつ包括的な医療サービスを提供することで、一次医療システムの基盤として機能する。実践のコミュニティ指向性、トレーニングの不均一さ、リソースギャップのため、GP間の臨床習熟度は地域や医療環境によって大きく異なる可能性がある。大言語モデル(LLM)は臨床および医学応用において大きな可能性を示しており、一般的な実践を支援するための有望なツールとなっている。 GPの日常業務においてLLMがいかに効果的に意思決定できるかを評価するため,GPBenchを設計した。
論文参考訳（メタデータ） (2025-03-22T01:02:44Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
EchoQA: A Large Collection of Instruction Tuning Data for Echocardiogram Reports [0.0]
集中治療のための医療情報マートから得られたエコー心電図を用いた質問応答(QA)データセットについて紹介する。このデータセットは、心疾患とその重症度に対処する771,244のQAペアからなる、心疾患のQAシステムを強化するために特別に設計された。我々は,ゼロショット評価のためのオープンソースおよびバイオメディカル固有モデル,ゼロショット評価のためのクローズソースモデルを含む大規模言語モデル(LLM)を比較した。
論文参考訳（メタデータ） (2025-03-04T07:45:45Z)
MedCoT: Medical Chain of Thought via Hierarchical Expert [48.91966620985221]
本稿では,新しい階層的検証手法であるMedCoTについて述べる。生体画像検査における解釈可能性と精度を高めるように設計されている。 4つの標準Med-VQAデータセットに対する実験的評価は、MedCoTが既存の最先端アプローチを上回ることを示している。
論文参考訳（メタデータ） (2024-12-18T11:14:02Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Exploring LLM-based Data Annotation Strategies for Medical Dialogue Preference Alignment [22.983780823136925]
本研究は、医療対話モデルを改善するために、AIフィードバック(RLAIF)技術を用いた強化学習(Reinforcement Learning)について検討する。医療におけるRLAIF研究の主な課題は、自動評価手法の限界である。標準化された患者診査に基づく新しい評価枠組みを提案する。
論文参考訳（メタデータ） (2024-10-05T10:29:19Z)
Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-25T06:17:54Z)
A Toolbox for Surfacing Health Equity Harms and Biases in Large Language Models [20.11590976578911]
大規模言語モデル(LLM)は、複雑な健康情報のニーズを満たすことを約束すると同時に、健康格差を悪化させる可能性がある。エクイティ関連モデル失敗の信頼性評価は、ヘルスエクイティを促進するシステムを開発するための重要なステップである。医学的問題に対するLLMによる長期的回答において、株式関連害を生じさせる可能性のあるバイアスを克服するためのリソースと方法論を提示する。
論文参考訳（メタデータ） (2024-03-18T17:56:37Z)
HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。 HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。 3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文参考訳（メタデータ） (2024-02-24T08:01:32Z)
TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文参考訳（メタデータ） (2023-07-19T12:35:09Z)
Consultation Checklists: Standardising the Human Evaluation of Medical Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文参考訳（メタデータ） (2022-11-17T10:54:28Z)
The Medkit-Learn(ing) Environment: Medical Decision Modelling through Simulation [81.72197368690031]
医用シーケンシャルな意思決定に特化して設計された新しいベンチマークスイートを提案する。 Medkit-Learn(ing) Environmentは、高忠実度合成医療データに簡単かつ簡単にアクセスできるPythonパッケージである。
論文参考訳（メタデータ） (2021-06-08T10:38:09Z)
Optimizing Medical Treatment for Sepsis in Intensive Care: from Reinforcement Learning to Pre-Trial Evaluation [2.908482270923597]
本研究の目的は, 介入を最適化する強化学習(RL)が, 学習方針の治験に対する規制に適合する経路を遡及的に得る枠組みを確立することである。我々は,死の主な原因の一つであり,複雑で不透明な患者動態のため治療が困難である集中治療室の感染症に焦点を当てた。
論文参考訳（メタデータ） (2020-03-13T20:31:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。