Fugu-MT 論文翻訳(概要): Improving TCM Question Answering through Tree-Organized Self-Reflective Retrieval with LLMs

論文の概要: Improving TCM Question Answering through Tree-Organized Self-Reflective Retrieval with LLMs

arxiv url: http://arxiv.org/abs/2502.09156v1
Date: Thu, 13 Feb 2025 10:36:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:35.205916
Title: Improving TCM Question Answering through Tree-Organized Self-Reflective Retrieval with LLMs
Title（参考訳）: LLMを用いた木構造自己回帰検索によるTCM質問応答の改善
Authors: Chang Liu, Ying Chang, Jianmin Li, Yiqian Qu, Yu Li, Lingyong Cao, Shuyuan Lin,
Abstract要約: 大言語モデル(LLM)は、知的な質問応答(Q&A)に医療知識を活用できる本稿では,木構造知識基盤を階層構造で構築する,知識組織の新しいアプローチを紹介する。推論時に、私たちの自己回帰フレームワークはこの知識ベースから取り出し、章間で情報を統合します。
参考スコア（独自算出の注目度）: 14.624761151441803
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Objectives: Large language models (LLMs) can harness medical knowledge for intelligent question answering (Q&A), promising support for auxiliary diagnosis and medical talent cultivation. However, there is a deficiency of highly efficient retrieval-augmented generation (RAG) frameworks within the domain of Traditional Chinese Medicine (TCM). Our purpose is to observe the effect of the Tree-Organized Self-Reflective Retrieval (TOSRR) framework on LLMs in TCM Q&A tasks. Materials and Methods: We introduce the novel approach of knowledge organization, constructing a tree structure knowledge base with hierarchy. At inference time, our self-reflection framework retrieves from this knowledge base, integrating information across chapters. Questions from the TCM Medical Licensing Examination (MLE) and the college Classics Course Exam (CCE) were randomly selected as benchmark datasets. Results: By coupling with GPT-4, the framework can improve the best performance on the TCM MLE benchmark by 19.85% in absolute accuracy, and improve recall accuracy from 27% to 38% on CCE datasets. In manual evaluation, the framework improves a total of 18.52 points across dimensions of safety, consistency, explainability, compliance, and coherence. Conclusion: The TOSRR framework can effectively improve LLM's capability in Q&A tasks of TCM.
Abstract（参考訳）: 目的: 大規模言語モデル(LLM)は、知的質問応答(Q&A)のための医療知識を活用でき、補助診断と医療人材育成の支援を約束する。しかし、中国伝統医学(TCM)の領域には、高効率な検索増強世代(RAG)の枠組みが欠如している。本研究の目的は,TMSQ&AタスクにおけるLLMに対するツリー・オーガナイズド・セルフ・レフレクティブ・レトリーバル(TOSRR)フレームワークの効果を観察することである。材料と方法: 木構造知識基盤を階層構造で構築し, 知識体系の新たなアプローチを導入する。推論時に、私たちの自己回帰フレームワークはこの知識ベースから取り出し、章間で情報を統合します。 TCM Medical Licensing Examination (MLE) および College Classics Course Exam (CCE) からの質問は、ランダムにベンチマークデータセットとして選択された。結果: GPT-4と組み合わせることで、TCM MLEベンチマークの最高のパフォーマンスを19.85%向上させ、CCEデータセットのリコール精度を27%から38%向上させることができる。手作業による評価では、安全性、一貫性、説明可能性、コンプライアンス、一貫性の面で、合計18.52ポイントの改善がなされている。結論: TOSRR フレームワークは TCM のQ&A タスクにおいて LLM の能力を効果的に改善することができる。

関連論文リスト

Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文参考訳（メタデータ） (2024-07-18T15:20:18Z)
SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文参考訳（メタデータ） (2024-06-17T06:48:31Z)
TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine [19.680694337954133]
大規模言語モデル(LLM)の専門的評価ベンチマークは、伝統的な中国医学(TCM)領域ではまだカバーされていない。そこで本研究では,TCMにおけるLLM性能を評価するための総合的なベンチマークであるTCM-Benchを紹介する。 TCM-EDデータセットは、TCM Licensing Exam (TCMLE)から得られた5,473の質問から成り、権威分析を伴う1,300の質問を含む。質問応答の精度を超えてLLMを評価するために,TCM関連質問に対してLLMが生成する回答の質を評価するための指標であるTCMScoreを提案する。
論文参考訳（メタデータ） (2024-06-03T09:11:13Z)
SarcNet: A Novel AI-based Framework to Automatically Analyze and Score Sarcomere Organizations in Fluorescently Tagged hiPSC-CMs [9.20965688800047]
ヒト多能性幹細胞由来心筋細胞(hiPSC-CMs)におけるサルコメア構造の定量化は、心臓疾患の病態の解明、薬物スクリーニングの改善、再生医療の進展に不可欠である。本稿では, 細胞画像を活用し, 細胞の特徴を統合し, 分化の開始からhiPSC-CMのサーコメア構造を自動的に評価する, 新たなディープラーニングベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-28T07:48:10Z)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。 ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文参考訳（メタデータ） (2024-03-01T21:59:03Z)
Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文参考訳（メタデータ） (2023-10-09T11:45:59Z)
Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文参考訳（メタデータ） (2023-05-17T12:31:26Z)
Large Language Models for Biomedical Knowledge Graph Construction: Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。 KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文参考訳（メタデータ） (2023-01-29T15:52:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。