論文の概要: Retrieve, Then Classify: Corpus-Grounded Automation of Clinical Value Set Authoring
- arxiv url: http://arxiv.org/abs/2604.14616v1
- Date: Thu, 16 Apr 2026 04:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.726107
- Title: Retrieve, Then Classify: Corpus-Grounded Automation of Clinical Value Set Authoring
- Title(参考訳): Retrieve, then Classification: Corpus-Grounded Automation of Clinical Value Set Authoring
- Authors: Sumit Mukherjee, Juan Shu, Nairwita Mazumder, Tate Kernell, Celena Wheeler, Shannon Hastings, Chris Sidey-Gibbons,
- Abstract要約: 臨床価値設定オーサリングは、臨床品質の測定と表現型化において繰り返し発生するボトルネックである。
提案するRASC(Retrieval-Augmented Set Completion: Retrieval-Augmented Set Completion): キュレートされたコーパスから最もよく似た値集合を検索して候補プールを形成する。
我々は,11,803個のVSAC値集合上でRASCの有用性を実証し,このタスクのための最初の大規模ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 1.3108798582758454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical value set authoring -- the task of identifying all codes in a standardized vocabulary that define a clinical concept -- is a recurring bottleneck in clinical quality measurement and phenotyping. A natural approach is to prompt a large language model (LLM) to generate the required codes directly, but structured clinical vocabularies are large, version-controlled, and not reliably memorized during pretraining. We propose Retrieval-Augmented Set Completion (RASC): retrieve the $K$ most similar existing value sets from a curated corpus to form a candidate pool, then apply a classifier to each candidate code. Theoretically, retrieve-and-select can reduce statistical complexity by shrinking the effective output space from the full vocabulary to a much smaller retrieved candidate pool. We demonstrate the utility of RASC on 11,803 publicly available VSAC value sets, constructing the first large-scale benchmark for this task. A cross-encoder fine-tuned on SAPBert achieves AUROC~0.852 and value-set-level F1~0.298, outperforming a simpler three-layer Multilayer Perceptron (AUROC~0.799, F1~0.250) and both reduce the number of irrelevant candidates per true positive from 12.3 (retrieval-only) to approximately 3.2 and 4.4 respectively. Zero-shot GPT-4o achieves value-set-level F1~0.105, with 48.6\% of returned codes absent from VSAC entirely. This performance gap widens with increasing value set size, consistent with RASC's theoretical advantage. We observe similar performance gains across two other classifier model types, namely a cross-encoder initialized from pre-trained SAPBert and a LightGBM model, demonstrating that RASC's benefits extend beyond a single model class. The code to download and create the benchmark dataset, as well as the model training code is available at: \href{https://github.com/mukhes3/RASC}{https://github.com/mukhes3/RASC}.
- Abstract(参考訳): クリニカルバリューセットのオーサリング(クリニカルバリューセットオーサリング) — 臨床概念を定義する標準化語彙内のすべてのコードを特定するタスク — は、臨床品質測定と表現型化において、繰り返し発生するボトルネックである。
自然なアプローチは、大きな言語モデル(LLM)に、必要なコードを直接生成するよう促すことであるが、構造化された臨床語彙は、大きく、バージョン管理され、事前訓練中に確実に記憶されない。
提案するRASC(Retrieval-Augmented Set Completion)は、キュレートされたコーパスから最もよく似た値集合を検索して候補プールを生成し、各候補コードに分類器を適用する。
理論的には、検索と選択は、有効出力空間を全語彙からより小さい候補プールに縮めることで、統計的複雑さを減少させることができる。
我々は,11,803個のVSAC値集合上でRASCの有用性を実証し,このタスクのための最初の大規模ベンチマークを構築した。
SAPBert上で微調整されたクロスエンコーダは、AUROC~0.852と値セットレベルF1~0.298を達成し、より単純な3層多層パーセプトロン(AUROC~0.799, F1~0.250)を上回り、それぞれ12.3(検索のみ)から約3.2と4.4に減少する。
ゼロショット GPT-4o は値セットレベル F1~0.105 を達成する。
この性能ギャップは、RASCの理論的優位性と一致して、値セットのサイズが大きくなるにつれて拡大する。
予備訓練されたSAPBert と LightGBM モデルから初期化したクロスエンコーダと,RASC の利点が単一モデルクラスを超えて拡張されていることを示す。
ベンチマークデータセットをダウンロードして作成するコードとモデルトレーニングコードを以下に示す。
関連論文リスト
- Bit-Identical Medical Deep Learning via Structured Orthogonal Initialization [0.0]
深層学習トレーニングは非決定論的であり、異なるランダムなシードを持つ同一のコードは、集約メトリクスに異を唱えるが個々の予測に異を唱えるモデルを生成する。
ランダム性の3つの源を除去する検証ビット識別訓練の枠組みを提案する。
論文 参考訳(メタデータ) (2026-03-30T05:04:57Z) - Rewriting Pre-Training Data Boosts LLM Performance in Math and Code [21.587613905318705]
Llama 3.3 Community Licenseの下でリリースされた2つのデータセットを導入し、大きな言語モデル(LLM)のパフォーマンスを大幅に向上させる。
SwallowCodeはPythonスニペットを,構文検証,ピリントベースのスタイルフィルタリング,2段階の書き換えプロセスという,新しい4段階のパイプラインを通じて洗練する。
We show that continual pre-training of Llama-3.1-8B with SwallowCode boosts pass@1 by +17.0 on HumanEval and +17.7 on HumanEval+ than Stack-Edu。
論文 参考訳(メタデータ) (2025-05-05T07:38:43Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Procode: the Swiss Multilingual Solution for Automatic Coding and
Recoding of Occupations and Economic Activities [0.0]
疫学的研究は、職業または経済活動のために確立された分類と整合したデータを必要とする。
目的は、分類に対する自由テキストのコーディングと異なる分類間の再コーディングのための、Procodeという名前のWebツールを開発し、テストすることであった。
論文 参考訳(メタデータ) (2020-11-30T07:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。