論文の概要: Noise-Robust De-Duplication at Scale
- arxiv url: http://arxiv.org/abs/2210.04261v1
- Date: Sun, 9 Oct 2022 13:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:46:01.696802
- Title: Noise-Robust De-Duplication at Scale
- Title(参考訳): スケールにおけるノイズ・ロバストデ複製
- Authors: Emily Silcock, Luca D'Amico-Wong, Jinglin Yang, Melissa Dell
- Abstract要約: この研究は、歴史的ニュースワイヤーのユニークなタイムラインを用いて、122,876の正の重複対を持つ27,210の文書データセットを作成する。
ハッシュとN-gramオーバーラップ、コントラスト訓練されたバイエンコーダ、およびバイエンコーダとクロスエンコーダを組み合わせたリランクスタイルアプローチなど、様々な非重複手法を開発し、評価する。
バイエンコーダのスケールは良好で、1つのGPUカードに1000万記事のコーパスを数時間で非重複化する。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying near duplicates within large, noisy text corpora has a myriad of
applications that range from de-duplicating training datasets, reducing privacy
risk, and evaluating test set leakage, to identifying reproduced news articles
and literature within large corpora. Across these diverse applications, the
overwhelming majority of work relies on N-grams. Limited efforts have been made
to evaluate how well N-gram methods perform, in part because it is unclear how
one could create an unbiased evaluation dataset for a massive corpus. This
study uses the unique timeliness of historical news wires to create a 27,210
document dataset, with 122,876 positive duplicate pairs, for studying
noise-robust de-duplication. The time-sensitivity of news makes comprehensive
hand labelling feasible - despite the massive overall size of the corpus - as
duplicates occur within a narrow date range. The study then develops and
evaluates a range of de-duplication methods: hashing and N-gram overlap (which
predominate in the literature), a contrastively trained bi-encoder, and a
re-rank style approach combining a bi- and cross-encoder. The neural approaches
significantly outperform hashing and N-gram overlap. We show that the
bi-encoder scales well, de-duplicating a 10 million article corpus on a single
GPU card in a matter of hours. The public release of our NEWS-COPY
de-duplication dataset will facilitate further research and applications.
- Abstract(参考訳): 大規模でノイズの多いテキストコーパス内のほぼ重複の特定には、トレーニングデータセットの重複排除、プライバシリスクの低減、テストセットのリーク評価、コーパス内の再現されたニュース記事や文献の識別など、数多くのアプリケーションがあります。
これらの多様なアプリケーションを通して、ほとんどの作業はn-gramに依存しています。
N-gram法がいかにうまく機能するかを評価するための限定的な努力がなされているが、その理由の一部は、大規模なコーパスに対して、どのように偏りのない評価データセットを作成できるかがはっきりしないためである。
本研究は,27,210個の文書データセットと122,876個の正の重複ペアを作成し,ノイズ・ロバスト重複の除去について検討する。
ニュースのタイムセンシティブさは、コーパスの全体サイズが大きいにも関わらず、短い日付範囲内で重複が発生するため、包括的ハンドラベリングを可能にする。
この研究は、ハッシュとN-gramオーバーラップ(文学において支配的な)、対照的に訓練されたバイエンコーダ、およびバイエンコーダとクロスエンコーダを組み合わせたリランクスタイルアプローチなど、様々な非複製手法を開発し、評価する。
神経アプローチはハッシュとN-gramの重なりを著しく上回る。
バイエンコーダのスケールは良好で、1つのGPUカードに1000万記事のコーパスを数時間で非重複化する。
NEWS-COPYデ複製データセットのパブリックリリースは、さらなる研究と応用を促進するだろう。
関連論文リスト
- Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Learning Confident Classifiers in the Presence of Label Noise [5.829762367794509]
本稿では,ノイズ観測のための確率論的モデルを提案し,信頼性の高い分類とセグメンテーションモデルの構築を可能にする。
実験により,本アルゴリズムは,検討された分類問題と分割問題に対して,最先端の解よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-01-02T04:27:25Z) - A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文 参考訳(メタデータ) (2022-09-21T15:35:02Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - On the Importance of Encrypting Deep Features [15.340540198612823]
ユーザデータの特徴ベクトルが知られ、推論のためのブラックボックスAPIが提供される。
個人再識別における最先端モデルの実験を行い,2つの攻撃シナリオ(補助属性の認識とユーザデータの再構築)について検討した。
その結果、厳しい制約下であっても、敵は機密情報を推測することに成功した。
論文 参考訳(メタデータ) (2021-08-16T15:22:33Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - A generic ensemble based deep convolutional neural network for
semi-supervised medical image segmentation [7.141405427125369]
深層畳み込みニューラルネットワーク(DCNN)に基づく画像セグメンテーションのための汎用的な半教師付き学習フレームワークを提案する。
本手法は,ラベルなしデータを組み込むことで,完全教師付きモデル学習を超えて大幅に改善することができる。
論文 参考訳(メタデータ) (2020-04-16T23:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。