Fugu-MT 論文翻訳(概要): SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization

論文の概要: SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization

arxiv url: http://arxiv.org/abs/2409.06216v1
Date: Tue, 10 Sep 2024 04:48:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 19:00:01.279966
Title: SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization
Title（参考訳）: SubRegWeigh: キーワード正規化による効果的かつ効率的なアノテーション
Authors: Kohei Tsuji, Tatsuya Hiraoka, Yuchang Cheng, Tomoya Iwakura,
Abstract要約: SubRegWeighは、既存のメソッドの4倍から5倍の速さでアノテーションの重み付けを行うことができる。擬似不正確なラベルを用いた実験では、擬似不正確なラベルが適切に検出された。
参考スコア（独自算出の注目度）: 4.412336603162405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many datasets of natural language processing (NLP) sometimes include annotation errors. Researchers have attempted to develop methods to reduce the adverse effect of errors in datasets automatically. However, an existing method is time-consuming because it requires many trained models to detect errors. We propose a novel method to reduce the time of error detection. Specifically, we use a tokenization technique called subword regularization to create pseudo-multiple models which are used to detect errors. Our proposed method, SubRegWeigh, can perform annotation weighting four to five times faster than the existing method. Additionally, SubRegWeigh improved performance in both document classification and named entity recognition tasks. In experiments with pseudo-incorrect labels, pseudo-incorrect labels were adequately detected.
Abstract（参考訳）: 自然言語処理(NLP)の多くのデータセットは、時にアノテーションエラーを含む。研究者はデータセットにおけるエラーの悪影響を自動的に低減する手法を開発してきた。しかし、既存の手法では、エラーを検出するために多くの訓練済みモデルを必要とするため、時間がかかります。本稿では,エラー検出時間を削減する新しい手法を提案する。具体的には、サブワード正規化(subword regularization)と呼ばれるトークン化手法を用いて、エラーを検出するために使用される擬似多重モデルを作成する。提案手法であるSubRegWeighは,既存の手法の4倍から5倍の速さでアノテーション重み付けを行うことができる。さらに、SubRegWeighはドキュメント分類と名前付きエンティティ認識タスクの両方のパフォーマンスを改善した。擬似不正確なラベルを用いた実験では、擬似不正確なラベルが適切に検出された。

関連論文リスト

Automated Quality Control for Language Documentation: Detecting Phonotactic Inconsistencies in a Kokborok Wordlist [0.0]
バングラを用いたコクボロク品種の多言語データセットに教師なし異常検出法を適用した。文字レベルと音節レベルの特徴は、潜在的な転写エラーや借用を識別するために使用される。ハイリコールアプローチは、フィールドワーカーに検証を必要とするエントリをフラグする体系的な方法を提供する。
論文参考訳（メタデータ） (2025-10-24T15:51:10Z)
From Label Error Detection to Correction: A Modular Framework and Benchmark for Object Detection Datasets [4.864032555684836]
ラベルエラー訂正のための半自動フレームワークREC$checkmark$D(リチェック)を導入する。現在のラベル誤り検出手法は,修正フレームワークと組み合わせることで,人間がアノテートボックスをスクラッチからアノテートするのに要する時間に数百のエラーを回復できることを示す。この検証されたセットは、ラベルエラーの検出と修正のための新しい実世界のベンチマークとしてリリースされる。
論文参考訳（メタデータ） (2025-08-06T10:03:05Z)
Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
IterPref: Focal Preference Learning for Code Generation via Iterative Debugging [28.020886216989872]
We propose IterPref, a new preference alignment framework for Code LLMs。 IterPrefは明示的にエラー領域を特定し、対応するトークンを調整されたDPOアルゴリズムで調整する。 IterPrefはコード生成において大幅なパフォーマンス向上を実現し、BigCodeBenchのような課題を改善する。
論文参考訳（メタデータ） (2025-03-04T16:56:34Z)
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。提案手法であるPremiseが実際によく動作することを示す。
論文参考訳（メタデータ） (2023-11-18T00:24:26Z)
Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech Recognition [49.42732949233184]
ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。損失関数のグラウンドトルースとしてノイズラベルを取ると、最適以下の性能が得られる。そこで我々は,ノイズの多い擬似ラベル問題に対処するために,代替擬似ラベル方式という新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-08-12T12:13:52Z)
ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文参考訳（メタデータ） (2023-06-04T02:55:25Z)
Block the Label and Noise: An N-Gram Masked Speller for Chinese Spell Checking [0.0]
本稿では, ラベルの漏洩や誤検出を回避するため, 電流や周辺トークンをマスキングするn-gramマスキング層を提案する。 SIGHANデータセットの実験では、プラグ可能なn-gramマスキング機構により、一般的なCSCモデルの性能が向上することを示した。
論文参考訳（メタデータ） (2023-05-05T06:43:56Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Factual Error Correction for Abstractive Summaries Using Entity Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。 RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文参考訳（メタデータ） (2022-04-18T11:35:02Z)
SparseDet: Improving Sparsely Annotated Object Detection with Pseudo-positive Mining [76.95808270536318]
Pseudo- positive mining を用いてラベル付き地域とラベルなし地域を分離するエンド・ツー・エンドシステムを提案する。ラベル付き領域は通常通り処理されるが、ラベルなし領域の処理には自己教師付き学習が使用される。我々は,PASCAL-VOCとCOCOデータセットの5つの分割に対して,最先端の性能を達成するための徹底的な実験を行った。
論文参考訳（メタデータ） (2022-01-12T18:57:04Z)
Label-Descriptive Patterns and their Application to Characterizing Classification Errors [31.272875287136426]
最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。本稿では,予測の正しさに応じて分割された入力データを簡潔に記述するパターンの小さなセットをマイニングすることにより,任意の分類器に対して,任意の分類を行うことができる手法を提案する。
論文参考訳（メタデータ） (2021-10-18T19:42:21Z)
Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文参考訳（メタデータ） (2021-10-15T20:37:29Z)
Template-free Prompt Tuning for Few-shot NER [46.59447116255979]
テンプレートを使わずにNERタスクをLM問題として再構成するよりエレガントな手法を提案する。具体的には,事前学習モデルの単語予測パラダイムを維持しながらテンプレート構築プロセスを捨てる。実験により, バート・タガー法およびテンプレートベース法に対して, 数ショット設定で提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-09-28T07:19:24Z)
Exploring the Capacity of a Large-scale Masked Language Model to Recognize Grammatical Errors [3.55517579369797]
トレーニングデータの5～10%は、BERTに基づく誤り検出法で、非言語モデルに基づく手法と同等の性能を実現するのに十分であることを示す。また、擬似誤差データを用いて、様々な種類の誤りを認識するための学習ルールにおいて、実際にそのような優れた特性を示すことを示す。
論文参考訳（メタデータ） (2021-08-27T10:37:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。