論文の概要: A Systematic Study of Biomedical Retrieval Pipeline Trade-offs in Performance and Efficiency
- arxiv url: http://arxiv.org/abs/2604.20853v1
- Date: Mon, 23 Feb 2026 03:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.112896
- Title: A Systematic Study of Biomedical Retrieval Pipeline Trade-offs in Performance and Efficiency
- Title(参考訳): バイオメディカル検索パイプラインの取引性能と効率に関する体系的研究
- Authors: Hayk Stepanyan, Matthew McDermott,
- Abstract要約: 探索パイプラインの設計選択が大規模における性能と効率に与える影響について検討する。
既存の生物医学的テキストデータセットの検索について検討する。
我々は、レビュアーのための具体的なガイダンスのポイントをいくつか特定する。
- 参考スコア(独自算出の注目度): 0.7734726150561086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval systems are increasingly used in biomedical and clinical natural language processing applications, yet practical guidance for researchers building such systems is limited. In this work, we provide such guidance through an empirical study of how retrieval pipeline design choices affect performance and efficiency at scale. In particular, we examine retrieval over a variety of existing, public biomedical text datasets, leveraging a variety of disparate types of queries, including exam-style questions, conversational medical queries, community-asked questions, and non-question formulations across various retrieval pipeline settings spanning corpus selection, chunk granularity, and vector index configuration. Retrieval results are judged using a robust, win-rate comparison assessment via an LLM-as-a-judge setting with human validation. Across these experiments, we identify several points of concrete guidance for reviewers, including the superiority of corpus aggregation for absolute retrieval quality, and the emergence of MedRAG/pubmed as the Pareto-optimal singleton corpus under graph-based (HNSW) indexing, appropriate chunking strategies, and FAISS indexing choices that offer the best trade-offs in speed and efficiency.
- Abstract(参考訳): 検索システムは, バイオメディカルおよび臨床自然言語処理の応用においてますます利用されているが, このようなシステムを構築する研究者のための実践的ガイダンスは限られている。
本研究では,探索パイプラインの設計選択が大規模化における性能と効率に与える影響について,実証的研究を通じて考察する。
特に,コーパスの選択,チャンクの粒度,ベクトルインデックスの設定にまたがる様々な検索パイプライン設定における,試験スタイルの質問,会話型医療クエリ,コミュニティ対応質問,非質問定式化など,さまざまな種類のクエリを活用することで,既存の公開バイオメディカルテキストデータセットの検索について検討する。
検索結果はLLM-as-a-judge設定と人間による検証を用いて,頑健で勝利率の比較評価を用いて評価される。
これらの実験を通して,絶対検索品質に対するコーパス集約の優位性,グラフベース(HNSW)インデックス化に基づくパレート最適シングルトンコーパスとしてパプト/パブ化されたMedRAGの出現,適切なチャンキング戦略,スピードと効率の最良のトレードオフを提供するFAISSインデックス化選択など,レビュアーのための具体的なガイダンスのポイントを特定した。
関連論文リスト
- Health System Scale Semantic Search Across Unstructured Clinical Notes [1.599023522858371]
我々は168万人の患者から1億6600万の臨床ノートを索引付けする意味検索システムを大小児病院に展開する。
このシステムは、サブレイテンシークエリのレイテンシ(現在237msのシングルユーザ、451msの20ユーザ)を毎月約4,000米ドルのコストで提供する。
論文 参考訳(メタデータ) (2026-04-28T13:09:48Z) - A Systematic Study of Retrieval Pipeline Design for Retrieval-Augmented Medical Question Answering [0.0]
大規模言語モデル(LLM)は、医学的質問応答において強力な能力を示している。
Retrieval-augmented Generation (RAG)は、外部知識検索を推論プロセスに統合することで、この制限に対処する。
本研究は、MedQA USMLEベンチマークと構造化教科書ベースの知識コーパスを用いて、RAGに基づく医療質問応答の体系的評価を行う。
論文 参考訳(メタデータ) (2026-04-08T16:37:22Z) - Retrieval-Augmented Generation Assistant for Anatomical Pathology Laboratories [2.125786478579275]
本研究は,解剖学(AP)研究室に適合したRAGアシスタントの提案と評価である。
ポルトガルの医療機関から99個のAPプロトコルの新たなコーパスを収集し、323個の質問応答ペアを構築した。
Retrieval-Augmented Generationアシスタントは、プロトコル関連のクエリに対するコンテキストグラウンドの回答を提供する。
論文 参考訳(メタデータ) (2025-12-08T22:44:57Z) - Distilling a Small Utility-Based Passage Selector to Enhance Retrieval-Augmented Generation [110.610512800947]
Retrieval-augmented Generation (RAG)は、取得した情報を組み込むことで、大規模言語モデル(LLM)を強化する。
RAGでは、重要度は実用性に移行し、正確な回答を生成するためのパスの有用性を考慮している。
提案手法は、ランク付けよりもユーティリティベースの選択に重点を置いており、固定しきい値を必要とせずに、特定のクエリに合わせた動的通過選択を可能にする。
本実験は, 実用性に基づく選択により, RAGの柔軟性とコスト効率が向上し, 計算コストが大幅に低減され, 応答品質が向上することを示した。
論文 参考訳(メタデータ) (2025-07-25T09:32:29Z) - CliniQ: A Multi-faceted Benchmark for Electronic Health Record Retrieval with Semantic Match Assessment [11.815222175336695]
我々は、このギャップに対処するために、新しい公開 EHR 検索ベンチマークである CliniQ を導入する。
我々は、MIMIC-IIIのICDコードと処方薬ラベルとともに、1000の放電サマリーノートに基づくベンチマークを構築した。
我々は,従来の正確なマッチングから一般的な高密度検索まで,さまざまな検索手法を総合的に評価する。
論文 参考訳(メタデータ) (2025-02-10T08:33:47Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - A method for comparing multiple imputation techniques: a case study on
the U.S. National COVID Cohort Collaborative [1.259457977936316]
統計的解析の文脈において、欠落データを扱うための戦略を数値的に評価する。
このアプローチは、最も有効でパフォーマンスの低いデータハンドリング戦略を効果的に強調することができる。
論文 参考訳(メタデータ) (2022-06-13T19:49:54Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。