論文の概要: Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models
- arxiv url: http://arxiv.org/abs/2506.22813v1
- Date: Sat, 28 Jun 2025 08:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.583993
- Title: Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models
- Title(参考訳): 選択とマージ:大規模言語モデルによる適応性とスケーラブルな名前付きエンティティ認識を目指して
- Authors: Zhuojun Ding, Wei Wei, Chenghao Fan,
- Abstract要約: Supervised Fine-tuning (SFT) は、大きな言語モデル(LLM)と、名前付きエンティティ認識(NER)のような情報抽出(IE)タスクの整合に広く用いられている。
推論時に専門家モデルを動的に選択・マージするSaMフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.466962214217334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) is widely used to align large language models (LLMs) with information extraction (IE) tasks, such as named entity recognition (NER). However, annotating such fine-grained labels and training domain-specific models is costly. Existing works typically train a unified model across multiple domains, but such approaches lack adaptation and scalability since not all training data benefits target domains and scaling trained models remains challenging. We propose the SaM framework, which dynamically Selects and Merges expert models at inference time. Specifically, for a target domain, we select domain-specific experts pre-trained on existing domains based on (i) domain similarity to the target domain and (ii) performance on sampled instances, respectively. The experts are then merged to create task-specific models optimized for the target domain. By dynamically merging experts beneficial to target domains, we improve generalization across various domains without extra training. Additionally, experts can be added or removed conveniently, leading to great scalability. Extensive experiments on multiple benchmarks demonstrate our framework's effectiveness, which outperforms the unified model by an average of 10%. We further provide insights into potential improvements, practical experience, and extensions of our framework.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、大きな言語モデル(LLM)と、名前付きエンティティ認識(NER)のような情報抽出(IE)タスクの整合に広く用いられている。
しかし、このようなきめ細かいラベルの注釈付けやドメイン固有のモデルのトレーニングはコストがかかる。
既存の作業は通常、複数のドメインにまたがる統一モデルをトレーニングするが、そのようなアプローチには適応性とスケーラビリティがない。
推論時に専門家モデルを動的に選択・マージするSaMフレームワークを提案する。
具体的には、対象ドメインに対して、既存のドメインに基づいて事前訓練されたドメイン固有の専門家を選択する。
(i)対象ドメインとドメインの類似性及び
(ii) サンプルインスタンスでのそれぞれのパフォーマンス。
専門家は統合されて、ターゲットドメインに最適化されたタスク固有のモデルを作成する。
対象ドメインに有益な専門家を動的にマージすることにより、余分なトレーニングを伴わずに、各ドメインの一般化を改善する。
さらに、専門家の追加や削除が便利になり、スケーラビリティが向上する。
複数のベンチマークに関する大規模な実験では、我々のフレームワークの有効性が示され、統一されたモデルを平均10%上回る結果となった。
さらに、フレームワークの潜在的な改善、実践的経験、拡張に関する洞察も提供します。
関連論文リスト
- MoE-MLoRA for Multi-Domain CTR Prediction: Efficient Adaptation with Expert Specialization [0.0]
MoE-MLoRAはエキスパートの混成フレームワークで、各専門家はドメインを専門にするために独立して訓練される。
MoE-MLoRAはMovielensとTaobaoの8つのCTRモデルで評価した。
論文 参考訳(メタデータ) (2025-06-09T09:03:05Z) - LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization [61.16890890570814]
ドメイン一般化(Domain Generalization, DG)手法は、複数のソースドメインからのトレーニングデータを使用することで、目に見えないターゲットドメインにおける優れたパフォーマンスを維持することを目的としている。
この作業では、DGを改善するために、ターゲットモデルをすべてのソースドメインの専門家にすることを目的とした、複数の専門家(LFME)からの学習と呼ばれる、シンプルだが効果的なフレームワークを導入している。
論文 参考訳(メタデータ) (2024-10-22T13:44:10Z) - Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Meta-DMoE: Adapting to Domain Shift by Meta-Distillation from
Mixture-of-Experts [33.21435044949033]
既存のほとんどのメソッドは、単一のモデルを使って複数のソースドメインでトレーニングを行います。
本稿では,知識蒸留プロセスとして定式化された非教師なし試験時間適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-08T02:28:10Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。