論文の概要: Traditional Chinese Medicine Case Analysis System for High-Level Semantic Abstraction: Optimized with Prompt and RAG
- arxiv url: http://arxiv.org/abs/2411.15491v1
- Date: Sat, 23 Nov 2024 08:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:51.892272
- Title: Traditional Chinese Medicine Case Analysis System for High-Level Semantic Abstraction: Optimized with Prompt and RAG
- Title(参考訳): 高レベルセマンティック抽象化のための漢方医学ケース分析システム:PromptとRAGを併用した最適化
- Authors: Peng Xu, Hongjin Wu, Jinle Wang, Rongjia Lin, Liwei Tan,
- Abstract要約: 本稿では,Webスクレイピングを用いた中国伝統医学(TCM)臨床症例データベースの構築に関する技術的計画について述べる。
患者の詳細,病因,症候群,アノテーションなどの重要な領域で,5000件以上のTCMの臨床症例を集め,データクリーニングを行い,データセットを構造化した。
- 参考スコア(独自算出の注目度): 4.305931531252756
- License:
- Abstract: This paper details a technical plan for building a clinical case database for Traditional Chinese Medicine (TCM) using web scraping. Leveraging multiple platforms, including 360doc, we gathered over 5,000 TCM clinical cases, performed data cleaning, and structured the dataset with crucial fields such as patient details, pathogenesis, syndromes, and annotations. Using the $Baidu\_ERNIE\_Speed\_128K$ API, we removed redundant information and generated the final answers through the $DeepSeekv2$ API, outputting results in standard JSON format. We optimized data recall with RAG and rerank techniques during retrieval and developed a hybrid matching scheme. By combining two-stage retrieval method with keyword matching via Jieba, we significantly enhanced the accuracy of model outputs.
- Abstract(参考訳): 本稿では,Webスクレイピングを用いた中国伝統医学(TCM)臨床症例データベースの構築に関する技術的計画について述べる。
360docを含む複数のプラットフォームを活用して,5000件以上のTCM症例を収集し,データクリーニングを行い,患者の詳細,病因,症候群,アノテーションなどの重要な領域でデータセットを構造化した。
Baidu\_ERNIE\_Speed\128K$ APIを使用して、冗長な情報を削除し、$DeepSeekv2$ APIを通じて最終回答を生成し、その結果を標準JSON形式で出力しました。
我々は、検索中にRAGとリランク手法を用いてデータリコールを最適化し、ハイブリッドマッチング方式を開発した。
また,二段階検索とキーワードマッチングを組み合わせることで,モデル出力の精度を大幅に向上させた。
関連論文リスト
- Enhanced Electronic Health Records Text Summarization Using Large Language Models [0.0]
このプロジェクトは、臨床が優先する、焦点を絞った要約を生成するシステムを作成することで、以前の作業の上に構築される。
提案システムでは,Flan-T5モデルを用いて,臨床専門のトピックに基づいた調整されたERHサマリーを生成する。
論文 参考訳(メタデータ) (2024-10-12T19:36:41Z) - Gradient Boosting Decision Trees on Medical Diagnosis over Tabular Data [0.0]
アンサンブル法は、医学的意思決定プロセスの成功の観点から、強力な代替手段を提供する。
本研究では,医学分類作業におけるアンサンブル手法,特にGBDTアルゴリズムの利点について検討した。
論文 参考訳(メタデータ) (2024-09-25T17:13:05Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - BESTMVQA: A Benchmark Evaluation System for Medical Visual Question
Answering [8.547600133510551]
本稿では,BESTMVQAで表される医用視覚質問応答のベンチマーク評価SysTemを開発する。
本システムは,Med-VQAデータセットを自動構築する上で有用なツールを提供する。
簡単な構成で、ベンチマークデータセット上で選択したモデルを自動でトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-12-13T03:08:48Z) - Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - A Dataset for Deep Learning-based Bone Structure Analyses in Total Hip
Arthroplasty [8.604089365903029]
全股関節解剖(THA)は整形外科において広く用いられている外科手術である。
ディープラーニング技術は有望だが、学習には高品質なラベル付きデータが必要である。
ディープラーニング指向のデータセットを生成するための効率的なデータアノテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-07T16:28:53Z) - P-Transformer: A Prompt-based Multimodal Transformer Architecture For
Medical Tabular Data [2.6487114372147182]
本稿では,P-Transformerを提案する。
このフレームワークは、構造化データと非構造化データの両方から、多彩なモダリティを調和した言語意味空間に効率的にエンコードする。
P-Transformerは、RMSE/MAEで10.9%/11.0%、RMSE/MAEで0.5%/2.2%、BACC/AUROCで1.6%/0.8%、予測可能性でSOTA(State-of-the-art)ベースラインと比較して改善した。
論文 参考訳(メタデータ) (2023-03-30T14:25:44Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。