Fugu-MT 論文翻訳(概要): Re-Examine Distantly Supervised NER: A New Benchmark and a Simple Approach

論文の概要: Re-Examine Distantly Supervised NER: A New Benchmark and a Simple Approach

arxiv url: http://arxiv.org/abs/2402.14948v3
Date: Mon, 16 Dec 2024 22:39:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.051633
Title: Re-Examine Distantly Supervised NER: A New Benchmark and a Simple Approach
Title（参考訳）: Re-Examine Distantly Supervised NER:新しいベンチマークと簡単なアプローチ
Authors: Yuepei Li, Kang Zhou, Qiao Qiao, Qing Wang, Qi Li,
Abstract要約: 実生活DS-NERデータセットであるQTLを導入し、ドメイン辞書を用いてトレーニングデータをアノテートし、テストデータをドメインの専門家がアノテートする。既存のDS-NERアプローチはQTLに適用されると失敗し、既存のDS-NERアプローチを再検討する動機となる。そこで我々は,カリキュラム学習を用いて学習サンプルを簡単から難易度まで注文する,トークンレベルの正正解学習(CuPUL)を提案する。
参考スコア（独自算出の注目度）: 14.801411392475439
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Distantly-Supervised Named Entity Recognition (DS-NER) uses knowledge bases or dictionaries for annotations, reducing manual efforts but rely on large human labeled validation set. In this paper, we introduce a real-life DS-NER dataset, QTL, where the training data is annotated using domain dictionaries and the test data is annotated by domain experts. This dataset has a small validation set, reflecting real-life scenarios. Existing DS-NER approaches fail when applied to QTL, which motivate us to re-examine existing DS-NER approaches. We found that many of them rely on large validation sets and some used test set for tuning inappropriately. To solve this issue, we proposed a new approach, token-level Curriculum-based Positive-Unlabeled Learning (CuPUL), which uses curriculum learning to order training samples from easy to hard. This method stabilizes training, making it robust and effective on small validation sets. CuPUL also addresses false negative issues using the Positive-Unlabeled learning paradigm, demonstrating improved performance in real-life applications.
Abstract（参考訳）: Distantly-Supervised Named Entity Recognition (DS-NER)は、アノテーションのための知識ベースまたは辞書を使用し、手作業を減らすが、大きな人間のラベル付き検証セットに依存している。本稿では,実生活におけるDS-NERデータセットであるQTLを紹介し,ドメイン辞書を用いてトレーニングデータをアノテートし,テストデータをドメインの専門家がアノテートする。このデータセットには、実際のシナリオを反映した、小さな検証セットがある。既存のDS-NERアプローチはQTLに適用されると失敗し、既存のDS-NERアプローチを再検討する動機となる。それらの多くは大きな検証セットに依存しており、一部のテストセットは不適切なチューニングに使用していました。この問題を解決するために,我々は,カリキュラム学習を用いて学習サンプルを簡単から難易度に注文する,トークンレベルの正の学習(CuPUL)を提案する。この方法はトレーニングを安定させ、小さな検証セットで堅牢で効果的にする。 CuPULはまた、Positive-Unlabeled学習パラダイムを使って偽陰性問題に対処し、現実のアプリケーションの性能改善を実証している。

関連論文リスト

Reinforcement Learning via Self-Distillation [37.078107691613155]
大規模言語モデルは、コードや数学などの検証可能な領域で強化学習を施して、ポストトレーニングされている。検証可能な報酬(RLVR)を用いた強化学習の現在の手法は、試みごとにスカラーな結果報酬からのみ学習し、深刻な信用割り当てボトルネックを生み出す。我々は、この設定をリッチフィードバックによる強化学習として定式化し、自己蒸留政策最適化(SDPO)を導入する。 SDPOは、トークン化されたフィードバックを、外部教師や明示的な報酬モデルなしで、密集した学習信号に変換する。
論文参考訳（メタデータ） (2026-01-28T17:45:12Z)
Train on Validation (ToV): Fast data selection with applications to fine-tuning [12.967061784324427]
最先端の機械学習は、しばしば2段階のプロセスに従う: 大きな汎用データセットで$(i)$pre-training、タスク固有のデータで$(ii)$fine-tuning。既存のデータ選択方法は、対象サンプルを検証セットとして扱い、トレーニングプールから単一のサンプルの追加や削除の効果を推定する。電車とバリデーションの通常の役割を逆転する,よりシンプルで高速な代替案を提案する。私たちの重要な洞察は、小さな検証セットの微調整によって最も影響を受けるトレーニングサンプルが最も有用であることです。
論文参考訳（メタデータ） (2025-10-01T00:55:39Z)
Label-Guided In-Context Learning for Named Entity Recognition [14.63059248497416]
In-context Learning (ICL) では、大規模な言語モデルで新しいタスクを実行することができる。トークンレベルの統計情報を用いてトレーニングラベルを活用する新しい手法であるDEERを導入し、ICLの性能を向上させる。
論文参考訳（メタデータ） (2025-05-29T17:54:32Z)
DynClean: Training Dynamics-based Label Cleaning for Distantly-Supervised Named Entity Recognition [49.54155332262579]
本稿では,トレーニングの進行に伴うモデルの挙動を生かした,トレーニングダイナミクスに基づくラベルクリーニング手法を提案する。また,遠隔ラベルの誤りを見つけるための自動しきい値推定手法も導入する。提案手法は,4つのデータセットにまたがる高度なDS-NER手法よりも優れている。
論文参考訳（メタデータ） (2025-04-06T20:54:42Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
Learning with Imbalanced Noisy Data by Preventing Bias in Sample Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-02-17T10:34:53Z)
Improving a Named Entity Recognizer Trained on Noisy Data with a Few Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文参考訳（メタデータ） (2023-10-25T17:23:37Z)
Revisiting Class Imbalance for End-to-end Semi-Supervised Object Detection [1.6249267147413524]
半教師付きオブジェクト検出(SSOD)は、擬似ラベルに基づくエンドツーエンド手法の開発において大きな進歩を遂げている。多くの手法は、擬似ラベルジェネレータの有効性を妨げるクラス不均衡のため、課題に直面している。本稿では,低品質な擬似ラベルの根本原因と,ラベル生成品質を改善するための新しい学習メカニズムについて検討する。
論文参考訳（メタデータ） (2023-06-04T06:01:53Z)
SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2023-01-26T03:53:25Z)
Label Noise-Robust Learning using a Confidence-Based Sieving Strategy [15.997774467236352]
ラベルノイズを伴うタスクの学習では、オーバーフィッティングに対するモデルの堅牢性を改善することが重要な課題である。サンプルをノイズのあるラベルで識別し、モデルを学習するのを防ぐことは、この課題に対処するための有望なアプローチである。本研究では, 信頼度誤差と呼ばれる新しい判別基準と, クリーンサンプルとノイズサンプルを効果的に識別するためのCONFESと呼ばれるシービング戦略を提案する。
論文参考訳（メタデータ） (2022-10-11T10:47:28Z)
An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文参考訳（メタデータ） (2022-09-28T02:11:34Z)
Meta Objective Guided Disambiguation for Partial Label Learning [44.05801303440139]
メタ客観的ガイド型曖昧化(MoGD)を用いたラベル学習のための新しい枠組みを提案する。 MoGDは、小さな検証セットでメタ目標を解くことで、候補ラベルから基底トラスラベルを復元することを目的としている。提案手法は,通常のSGDを用いた様々なディープネットワークを用いて容易に実装できる。
論文参考訳（メタデータ） (2022-08-26T06:48:01Z)
Towards Harnessing Feature Embedding for Robust Learning with Noisy Labels [44.133307197696446]
ディープニューラルネットワーク(DNN)の記憶効果は,近年のラベルノイズ学習法において重要な役割を担っている。ラベルノイズを用いたディープラーニングのための新しい特徴埋め込み方式, LabEl Noise Dilution (LEND) を提案する。
論文参考訳（メタデータ） (2022-06-27T02:45:09Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Uncertainty-aware Pseudo-label Selection for Positive-Unlabeled Learning [10.014356492742074]
本稿では,正の未ラベル学習環境における不均衡データセットとモデル校正の問題に取り組むことを提案する。マイノリティクラスからのシグナルを増強することにより、擬似ラベル付けはラベル付きデータセットをラベル付きデータセットから新しいサンプルで拡張する。 PUUPLは一連の実験において、高度に不均衡な設定で大幅な性能向上をもたらす。
論文参考訳（メタデータ） (2022-01-31T12:55:47Z)
S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文参考訳（メタデータ） (2021-11-22T15:49:20Z)
Distantly-Supervised Named Entity Recognition with Noise-Robust Learning and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文参考訳（メタデータ） (2021-09-10T17:19:56Z)
Few-shot Learning via Dependency Maximization and Instance Discriminant Analysis [21.8311401851523]
そこで本研究では,カテゴリ毎にラベル付きデータが極めて少ない新しいオブジェクトの認識をモデルが学習する,数ショットの学習問題について検討する。本稿では,少数ショット処理に伴うラベルなしデータを利用して,少数ショット性能を向上させるための簡単な手法を提案する。
論文参考訳（メタデータ） (2021-09-07T02:19:01Z)
Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文参考訳（メタデータ） (2021-05-10T14:43:11Z)
Data-efficient Weakly-supervised Learning for On-line Object Detection under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文参考訳（メタデータ） (2020-12-28T16:36:11Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)
Ask-n-Learn: Active Learning via Reliable Gradient Representations for Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。 Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文参考訳（メタデータ） (2020-09-30T05:19:56Z)
BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant Supervision [49.42215511723874]
我々は,NERモデルの予測性能を改善するための新しい計算フレームワーク,BONDを提案する。具体的には,2段階の学習アルゴリズムを提案する。第1段階では,遠隔ラベルを用いて,事前学習された言語モデルをNERタスクに適用する。第2段階では,遠隔ラベルを廃止し,モデル性能をさらに向上するための自己学習手法を提案する。
論文参考訳（メタデータ） (2020-06-28T04:55:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。