論文の概要: BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives
- arxiv url: http://arxiv.org/abs/2511.08029v1
- Date: Wed, 12 Nov 2025 01:35:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.605861
- Title: BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives
- Title(参考訳): BiCA:Citation-Aware Hard Negatives を用いた効果的なバイオメディカルセンス検索
- Authors: Aarush Sinha, Pavan Kumar S, Roshan Balaji, Nirav Pravinbhai Bhatt,
- Abstract要約: そこで我々は,BiCA: Citation-Aware Hard Negativesを用いたバイオメディカルDense Retrievalを提案する。
GTE_small と GTE_Base のモデルを 20,000 のPubMed 記事の引用を用いて微調整し,ドメイン固有の小密度レトリバーを改良する。
本研究は,文書リンク構造を活用して高い情報的負を発生させる可能性を明らかにする。
- 参考スコア(独自算出の注目度): 0.11666234644810893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hard negatives are essential for training effective retrieval models. Hard-negative mining typically relies on ranking documents using cross-encoders or static embedding models based on similarity metrics such as cosine distance. Hard negative mining becomes challenging for biomedical and scientific domains due to the difficulty in distinguishing between source and hard negative documents. However, referenced documents naturally share contextual relevance with the source document but are not duplicates, making them well-suited as hard negatives. In this work, we propose BiCA: Biomedical Dense Retrieval with Citation-Aware Hard Negatives, an approach for hard-negative mining by utilizing citation links in 20,000 PubMed articles for improving a domain-specific small dense retriever. We fine-tune the GTE_small and GTE_Base models using these citation-informed negatives and observe consistent improvements in zero-shot dense retrieval using nDCG@10 for both in-domain and out-of-domain tasks on BEIR and outperform baselines on long-tailed topics in LoTTE using Success@5. Our findings highlight the potential of leveraging document link structure to generate highly informative negatives, enabling state-of-the-art performance with minimal fine-tuning and demonstrating a path towards highly data-efficient domain adaptation.
- Abstract(参考訳): 強陰性は効果的な検索モデルの訓練に不可欠である。
強い負のマイニングは通常、コサイン距離などの類似度指標に基づいたクロスエンコーダや静的埋め込みモデルを使用した文書のランク付けに依存している。
生物医学や科学の分野では、情報源と硬い負の文書の区別が難しいため、硬い負の採掘が困難になる。
しかし、参照された文書は、自然にソース文書と文脈的関連性を共有するが、重複ではないため、ハードネガティブとして適している。
本研究では,BiCA: Biomedical Dense Retrieval with Citation-Aware Hard Negativesを提案する。
我々は,これらの引用インフォームド・ネガを用いたGTE_smallおよびGTE_Baseモデルを微調整し,Euccess@5を用いて,BEIR上のドメイン内タスクとドメイン外タスクの両方において,nDCG@10を用いたゼロショット高密度検索における一貫した改善を観測した。
本研究は,文書リンク構造を利用して高い情報的負を発生させ,最小限の微調整で最先端のパフォーマンスを実現し,高データ効率ドメイン適応への道筋を示すものである。
関連論文リスト
- RRRA: Resampling and Reranking through a Retriever Adapter [0.0]
本稿では,Bi-Encoder表現をモニタし,ハード負が実際に偽陰性である可能性を推定する学習可能なアダプタモジュールを提案する。
この確率は動的かつ文脈的にモデル化され、きめ細かいクエリ特有の判断を可能にする。
標準ベンチマークにおける実証的な結果から、我々のアダプタ強化フレームワークは、強いBi-Encoderベースラインを一貫して上回っていることが分かる。
論文 参考訳(メタデータ) (2025-08-07T08:59:57Z) - Hard Negatives, Hard Lessons: Revisiting Training Data Quality for Robust Information Retrieval with LLMs [53.78110936809744]
堅牢で再帰的なモデルのトレーニングは通常、大規模なデータセットに依存します。
トレーニングデータセットにおいて、偽陰性を識別し、許容する。
トレーニングデータセットとコードは公開されています。
論文 参考訳(メタデータ) (2025-05-22T17:47:57Z) - Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance [30.879299174443812]
本研究では,実際の文書やアノテーションを定式化し,大規模な言語モデルを用いて合成文書を生成する。
MARCO と BEIR のベンチマーク実験により,提案手法は従来の InfoNCE を用いたトレーニングよりも高い性能を示した。
論文 参考訳(メタデータ) (2025-03-29T22:33:22Z) - Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。
私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
論文 参考訳(メタデータ) (2025-03-06T23:23:13Z) - CliniQ: A Multi-faceted Benchmark for Electronic Health Record Retrieval with Semantic Match Assessment [11.815222175336695]
我々は、このギャップに対処するために、新しい公開 EHR 検索ベンチマークである CliniQ を導入する。
我々は、MIMIC-IIIのICDコードと処方薬ラベルとともに、1000の放電サマリーノートに基づくベンチマークを構築した。
我々は,従来の正確なマッチングから一般的な高密度検索まで,さまざまな検索手法を総合的に評価する。
論文 参考訳(メタデータ) (2025-02-10T08:33:47Z) - Remining Hard Negatives for Generative Pseudo Labeled Domain Adaptation [0.649970685896541]
最先端のドメイン適応技術はGenerative Pseudo Labeling (GPL)である
ドメイン適応モデルにより検索された文書を分析し、これらが非適応モデルよりもターゲットクエリに関連があることを発見する。
我々のリミニングR-GPLアプローチは、13/14 BEIRデータセットと9/12 LoTTeデータセットのランキングパフォーマンスを向上します。
論文 参考訳(メタデータ) (2025-01-24T12:02:37Z) - Enhancing Retrieval Performance: An Ensemble Approach For Hard Negative Mining [0.0]
本研究は,クロスエンコーダモデルのトレーニングプロセスにおいて,ハードネガティブが果たす重要な役割を説明することに焦点を当てる。
我々は,企業データセット上でのクロスエンコーダ・リランクモデルの効率的なトレーニングのための強硬な負のマイニング手法を開発した。
論文 参考訳(メタデータ) (2024-10-18T05:23:39Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。