論文の概要: From RAG to Agentic: Validating Islamic-Medicine Responses with LLM Agents
- arxiv url: http://arxiv.org/abs/2506.15911v1
- Date: Wed, 18 Jun 2025 23:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.879953
- Title: From RAG to Agentic: Validating Islamic-Medicine Responses with LLM Agents
- Title(参考訳): RAGからエージェントへ : LLMエージェントによるイスラム・メディジン反応の検証
- Authors: Mohammad Amaan Sayeed, Mohammed Talha Alam, Raza Imam, Shahab Saquib Sohail, Amir Hussain,
- Abstract要約: アヴィチェンナの『医学のカノン』や預言的な『ティブ・エ・ナバウィ』のようなイスラム教のテキストは、予防医療、栄養、全体療法の富を符号化している。
既存の言語モデルベンチマークでは、事実のリコールやユーザの好みに焦点が当てられている。
そこで我々は,30個の予言・医学的質問を人為的な治療と一致させる統合評価パイプラインTibbe-AGを提案する。
- 参考スコア(独自算出の注目度): 5.391445566482165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Centuries-old Islamic medical texts like Avicenna's Canon of Medicine and the Prophetic Tibb-e-Nabawi encode a wealth of preventive care, nutrition, and holistic therapies, yet remain inaccessible to many and underutilized in modern AI systems. Existing language-model benchmarks focus narrowly on factual recall or user preference, leaving a gap in validating culturally grounded medical guidance at scale. We propose a unified evaluation pipeline, Tibbe-AG, that aligns 30 carefully curated Prophetic-medicine questions with human-verified remedies and compares three LLMs (LLaMA-3, Mistral-7B, Qwen2-7B) under three configurations: direct generation, retrieval-augmented generation, and a scientific self-critique filter. Each answer is then assessed by a secondary LLM serving as an agentic judge, yielding a single 3C3H quality score. Retrieval improves factual accuracy by 13%, while the agentic prompt adds another 10% improvement through deeper mechanistic insight and safety considerations. Our results demonstrate that blending classical Islamic texts with retrieval and self-evaluation enables reliable, culturally sensitive medical question-answering.
- Abstract(参考訳): Avicenna's Canon of Medicineや預言的なTibb-e-Nabawiのような、中世のイスラム医学のテキストは、予防医療、栄養、そして全体療法の豊富な部分をエンコードしているが、現代のAIシステムでは、多くの人が利用できないままである。
既存の言語モデルベンチマークでは、事実のリコールやユーザの嗜好に焦点が当てられており、文化的根拠のある医療指導を大規模に検証する際のギャップが残っている。
提案する評価パイプラインであるTibbe-AGは,3つのLCM(LLaMA-3, Mistral-7B, Qwen2-7B)を,直接生成, 検索拡張生成, 科学的自己批判フィルタの3つの構成で比較する。
そして、各回答は、エージェント裁判官として機能する二次LCMによって評価され、単一の3C3H品質スコアを得る。
Retrievalは事実の精度を13%向上させ、エージェントのプロンプトはより深い機械的洞察と安全性の考慮を通じてさらに10%改善する。
以上の結果から,古典イスラムのテキストを検索と自己評価と組み合わせることで,信頼性,文化的に敏感な医療質問の回答が可能になることが示唆された。
関連論文リスト
- LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [38.02853540388593]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs [4.003209132872364]
大型言語モデル (LLM) は医学的知識が豊富であるが、幻覚や不正確な引用の傾向にある。
Retrieval Augmented Generationのような現在の手法は、ソース文書の回答を根拠にすることで、これらの問題に部分的に対処する。
我々は,LLMの信頼性と説明可能性を高めるために,新しい原子ファクトチェックフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-30T17:33:07Z) - AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。
AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文 参考訳(メタデータ) (2025-05-17T07:44:54Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - KGARevion: An AI Agent for Knowledge-Intensive Biomedical QA [31.080514888803886]
KGARevionは知識グラフに基づくエージェントで、知識集約的な質問に答える。
これは、大きな言語モデルに埋め込まれた潜伏した知識を活用することで、関連する三つ子を生成する。
そして、これらの三重項を知識グラフに対して検証し、エラーをフィルタリングし、正確で文脈的に関係のある情報のみを保持する。
論文 参考訳(メタデータ) (2024-10-07T00:17:37Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。