論文の概要: Data-Efficient Biomedical In-Context Learning: A Diversity-Enhanced Submodular Perspective
- arxiv url: http://arxiv.org/abs/2508.08140v1
- Date: Mon, 11 Aug 2025 16:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.201537
- Title: Data-Efficient Biomedical In-Context Learning: A Diversity-Enhanced Submodular Perspective
- Title(参考訳): データ効率のよいバイオメディカルインコンテキストラーニング:多様性に富む部分モジュラー視点
- Authors: Jun Wang, Zaifu Zhan, Qixin Zhang, Mingquan Lin, Meijia Song, Rui Zhang,
- Abstract要約: 本稿では,生物医学ICLにおける実証選択のための多様性向上型データ効率フレームワークであるDual-Divを提案する。
まず、代表性と多様性の両方を最適化することで、コーパスから限られた候補例を識別する。
第2に、これらの候補をテストクエリに対してランク付けし、最も関連性があり、非依存的なデモを選択する。
- 参考スコア(独自算出の注目度): 11.369062108159111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large language models (LLMs) has leveraged their in-context learning (ICL) abilities to enable quick adaptation to unseen biomedical NLP tasks. By incorporating only a few input-output examples into prompts, LLMs can rapidly perform these new tasks. While the impact of these demonstrations on LLM performance has been extensively studied, most existing approaches prioritize representativeness over diversity when selecting examples from large corpora. To address this gap, we propose Dual-Div, a diversity-enhanced data-efficient framework for demonstration selection in biomedical ICL. Dual-Div employs a two-stage retrieval and ranking process: First, it identifies a limited set of candidate examples from a corpus by optimizing both representativeness and diversity (with optional annotation for unlabeled data). Second, it ranks these candidates against test queries to select the most relevant and non-redundant demonstrations. Evaluated on three biomedical NLP tasks (named entity recognition (NER), relation extraction (RE), and text classification (TC)) using LLaMA 3.1 and Qwen 2.5 for inference, along with three retrievers (BGE-Large, BMRetriever, MedCPT), Dual-Div consistently outperforms baselines-achieving up to 5% higher macro-F1 scores-while demonstrating robustness to prompt permutations and class imbalance. Our findings establish that diversity in initial retrieval is more critical than ranking-stage optimization, and limiting demonstrations to 3-5 examples maximizes performance efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、そのコンテキスト内学習(ICL)能力を活用して、目に見えない生体医学的NLPタスクへの迅速な適応を可能にしている。
いくつかのインプット出力例をプロンプトに組み込むことで、LSMはこれらの新しいタスクを迅速に実行することができる。
これらの実演がLLM性能に与える影響は広く研究されているが、既存のアプローチの多くは、大きなコーパスから例を選択する際に多様性よりも代表性を優先している。
このギャップに対処するため,生物医学ICLにおけるデモ選択のための多様性向上したデータ効率フレームワークであるDual-Divを提案する。
Dual-Divは2段階の検索とランキングのプロセスを採用している。 まず、代表性と多様性の両方を最適化することで、コーパスから限られた候補例を識別する(ラベルなしデータに対するオプションアノテーション付き)。
第2に、これらの候補をテストクエリに対してランク付けし、最も関連性があり、非依存的なデモを選択する。
LLaMA 3.1とQwen 2.5と3つのレトリバー(BGE-Large、BMRetriever、MedCPT)と併用して3つの生物医学的NLPタスク(エンティティ認識(NER)、関係抽出(RE)、テキスト分類(TC))を評価する。
その結果,初期検索の多様性はランキングステージの最適化よりも重要であり,実演を3~5例に制限することで性能効率を最大化できることがわかった。
関連論文リスト
- Large Language Models are Demonstration Pre-Selectors for Themselves [57.101804269100185]
大規模言語モデル(LLM)を備えたインコンテキスト学習(ICL)は、トレーニングデータ全体から数ショットのデモを選択することで、強力な数ショットのパフォーマンスを提供する。
FEw yet Essential Demonstration prE-selectoRは、デモの代表的なサブセットを特定する新しい事前選択フレームワークである。
FEwでもEssential Demonstration prE-selectoRは、パフォーマンスを維持しながら、トレーニングデータのサイズを20%以上削減できる。
論文 参考訳(メタデータ) (2025-06-06T12:29:03Z) - Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs [28.20725794099928]
下流の多様なタスクに対する差別表現を学習する新しいフレームワークであるUniMEを紹介する。
最初の段階では、強力なLLMベースの教師モデルからテキスト識別的知識蒸留を行う。
第2段階では、識別表現学習をさらに進めるために、強陰性強化命令チューニングを導入する。
論文 参考訳(メタデータ) (2025-04-24T10:51:52Z) - MMRAG: Multi-Mode Retrieval-Augmented Generation with Large Language Models for Biomedical In-Context Learning [16.59236233944259]
本稿では,新しいMulti-mode Search-augmented Generation (MMRAG) フレームワークを提案する。
MMRAGはランダムモード、トップモード、多様性モード、クラスモードの4つの検索戦略を統合している。
本研究は3つの中核生物医学的NLP課題に対するMRAGの評価である。
論文 参考訳(メタデータ) (2025-02-21T21:36:48Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。