Fugu-MT 論文翻訳(概要): Domain-Specific NER via Retrieving Correlated Samples

論文の概要: Domain-Specific NER via Retrieving Correlated Samples

arxiv url: http://arxiv.org/abs/2208.12995v1
Date: Sat, 27 Aug 2022 12:25:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-30 13:40:50.273454
Title: Domain-Specific NER via Retrieving Correlated Samples
Title（参考訳）: 関連サンプルの検索によるドメイン特化NER
Authors: Xin Zhang, Yong Jiang, Xiaobin Wang, Xuming Hu, Yueheng Sun, Pengjun Xie, Meishan Zhang
Abstract要約: 本稿では,NERモデルの相関サンプルによる拡張を提案する。人間の推論過程を明示的にシミュレートするために,多数決によるトレーニング不要な実体型校正を行う。上記の2つの領域のデータセットに対する実験結果から,本手法の有効性が示された。
参考スコア（独自算出の注目度）: 37.98414661072985
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Successful Machine Learning based Named Entity Recognition models could fail on texts from some special domains, for instance, Chinese addresses and e-commerce titles, where requires adequate background knowledge. Such texts are also difficult for human annotators. In fact, we can obtain some potentially helpful information from correlated texts, which have some common entities, to help the text understanding. Then, one can easily reason out the correct answer by referencing correlated samples. In this paper, we suggest enhancing NER models with correlated samples. We draw correlated samples by the sparse BM25 retriever from large-scale in-domain unlabeled data. To explicitly simulate the human reasoning process, we perform a training-free entity type calibrating by majority voting. To capture correlation features in the training stage, we suggest to model correlated samples by the transformer-based multi-instance cross-encoder. Empirical results on datasets of the above two domains show the efficacy of our methods.
Abstract（参考訳）: 名前付きエンティティ認識モデルの成功は、中国のアドレスやeコマースのタイトルといった、適切なバックグラウンド知識を必要とする特定のドメインのテキストで失敗する可能性がある。このような文章は人間の注釈にも難しい。実際、テキスト理解を助けるために、共通のエンティティを持つ相関したテキストから、潜在的に有用な情報を得ることができる。そして、相関サンプルを参照することにより、正しい回答を容易に推論できる。本稿では,NERモデルの相関サンプルによる拡張を提案する。大規模領域非ラベルデータからスパースbm25レトリバーによる相関サンプルを抽出した。人間の推論過程を明示的にシミュレートするために,多数決によるトレーニング不要な実体型校正を行う。トレーニングステージにおける相関特徴を捉えるために,トランスベースマルチインスタンスクロスエンコーダによる相関サンプルのモデル化を提案する。以上の2つのドメインのデータセットにおける実験結果は,提案手法の有効性を示している。

関連論文リスト

Leveraging Text-to-Image Generation for Handling Spurious Correlation [24.940576844328408]
経験的リスク最小化(ERM)でトレーニングされたディープニューラルネットワークは、トレーニングとテストの両方が同じドメインからやってくると、うまく機能する。 ERMモデルは、ラベルと画像の無関係な特徴の間にしばしば存在する急激な相関に頼り、それらの特徴が存在しないと予測できない。本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルを用いたトレーニングサンプルの生成手法を提案する。
論文参考訳（メタデータ） (2025-03-21T15:28:22Z)
Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。 DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。 10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-20T01:34:13Z)
Fighting Against the Repetitive Training and Sample Dependency Problem in Few-shot Named Entity Recognition [29.969268584918105]
名前付きエンティティ認識(NER)システムは、いくつかのラベル付きトレーニング例を使用してエンティティを認識する。現在のスパン検出器は、ガイドトレーニングのための広範囲な手動ラベリングに依存している。オープンドメインのウィキペディアデータに基づいて事前トレーニングした足場スパン検出器を導入する。大型言語モデル(LLM)を利用して、信頼性の高いエンティティ型参照をセットし、各タイプの少数ショットサンプルへの依存をなくす。
論文参考訳（メタデータ） (2024-06-08T12:36:30Z)
Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文参考訳（メタデータ） (2022-11-15T15:58:56Z)
T-NER: An All-Round Python Library for Transformer-based Named Entity Recognition [9.928025283928282]
T-NERは、NER LMファインタニング用のPythonライブラリである。 9つのパブリックなNERデータセットを統一されたフォーマットにコンパイルすることで、ライブラリの可能性を示す。将来の研究を容易にするため、Hugging Faceモデルハブを通じてLMチェックポイントをすべてリリースしています。
論文参考訳（メタデータ） (2022-09-09T15:00:38Z)
Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文参考訳（メタデータ） (2021-09-12T15:51:41Z)
Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文参考訳（メタデータ） (2021-07-01T09:26:13Z)
Bootstrapping Relation Extractors using Syntactic Search by Examples [47.11932446745022]
非NLP専門家によって迅速に実行できるトレーニングデータセットのブートストラッププロセスを提案する。フレンドリーなバイサンプル構文を公開する構文グラフよりも検索エンジンを利用する。得られたモデルは,手作業による注釈付きデータや遠隔監視から得られたデータに基づいて訓練されたモデルと競合することを示す。
論文参考訳（メタデータ） (2021-02-09T18:17:59Z)
Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。私たちのフレームワークは、サンプル間の関係をよく保存します。サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文参考訳（メタデータ） (2020-07-11T10:57:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。