論文の概要: Noise-Robust De-Duplication at Scale
- arxiv url: http://arxiv.org/abs/2210.04261v1
- Date: Sun, 9 Oct 2022 13:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:46:01.696802
- Title: Noise-Robust De-Duplication at Scale
- Title(参考訳): スケールにおけるノイズ・ロバストデ複製
- Authors: Emily Silcock, Luca D'Amico-Wong, Jinglin Yang, Melissa Dell
- Abstract要約: この研究は、歴史的ニュースワイヤーのユニークなタイムラインを用いて、122,876の正の重複対を持つ27,210の文書データセットを作成する。
ハッシュとN-gramオーバーラップ、コントラスト訓練されたバイエンコーダ、およびバイエンコーダとクロスエンコーダを組み合わせたリランクスタイルアプローチなど、様々な非重複手法を開発し、評価する。
バイエンコーダのスケールは良好で、1つのGPUカードに1000万記事のコーパスを数時間で非重複化する。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying near duplicates within large, noisy text corpora has a myriad of
applications that range from de-duplicating training datasets, reducing privacy
risk, and evaluating test set leakage, to identifying reproduced news articles
and literature within large corpora. Across these diverse applications, the
overwhelming majority of work relies on N-grams. Limited efforts have been made
to evaluate how well N-gram methods perform, in part because it is unclear how
one could create an unbiased evaluation dataset for a massive corpus. This
study uses the unique timeliness of historical news wires to create a 27,210
document dataset, with 122,876 positive duplicate pairs, for studying
noise-robust de-duplication. The time-sensitivity of news makes comprehensive
hand labelling feasible - despite the massive overall size of the corpus - as
duplicates occur within a narrow date range. The study then develops and
evaluates a range of de-duplication methods: hashing and N-gram overlap (which
predominate in the literature), a contrastively trained bi-encoder, and a
re-rank style approach combining a bi- and cross-encoder. The neural approaches
significantly outperform hashing and N-gram overlap. We show that the
bi-encoder scales well, de-duplicating a 10 million article corpus on a single
GPU card in a matter of hours. The public release of our NEWS-COPY
de-duplication dataset will facilitate further research and applications.
- Abstract(参考訳): 大規模でノイズの多いテキストコーパス内のほぼ重複の特定には、トレーニングデータセットの重複排除、プライバシリスクの低減、テストセットのリーク評価、コーパス内の再現されたニュース記事や文献の識別など、数多くのアプリケーションがあります。
これらの多様なアプリケーションを通して、ほとんどの作業はn-gramに依存しています。
N-gram法がいかにうまく機能するかを評価するための限定的な努力がなされているが、その理由の一部は、大規模なコーパスに対して、どのように偏りのない評価データセットを作成できるかがはっきりしないためである。
本研究は,27,210個の文書データセットと122,876個の正の重複ペアを作成し,ノイズ・ロバスト重複の除去について検討する。
ニュースのタイムセンシティブさは、コーパスの全体サイズが大きいにも関わらず、短い日付範囲内で重複が発生するため、包括的ハンドラベリングを可能にする。
この研究は、ハッシュとN-gramオーバーラップ(文学において支配的な)、対照的に訓練されたバイエンコーダ、およびバイエンコーダとクロスエンコーダを組み合わせたリランクスタイルアプローチなど、様々な非複製手法を開発し、評価する。
神経アプローチはハッシュとN-gramの重なりを著しく上回る。
バイエンコーダのスケールは良好で、1つのGPUカードに1000万記事のコーパスを数時間で非重複化する。
NEWS-COPYデ複製データセットのパブリックリリースは、さらなる研究と応用を促進するだろう。
関連論文リスト
- Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - Software Entity Recognition with Noise-Robust Learning [31.259250137320468]
ウィキペディアの分類を利用して、12のきめ細かいタイプで79Kのユニークなソフトウェアエンティティを持つ包括的なエンティティ辞書を開発する。
そこで我々は,多くのドロップアウトを考慮に入れたソフトウェアエンティティ認識モデルのトレーニングに対して,ノイズローバスト学習手法である自己正規化を提案する。
その結果、自己正規化でトレーニングされたモデルは、私たちのWikipediaベンチマークと2つのStack Overflowベンチマークにおいて、バニラと最先端のアプローチの両方よりも優れています。
論文 参考訳(メタデータ) (2023-08-21T08:41:46Z) - Learning Confident Classifiers in the Presence of Label Noise [5.829762367794509]
本稿では,ノイズ観測のための確率論的モデルを提案し,信頼性の高い分類とセグメンテーションモデルの構築を可能にする。
実験により,本アルゴリズムは,検討された分類問題と分割問題に対して,最先端の解よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-01-02T04:27:25Z) - A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文 参考訳(メタデータ) (2022-09-21T15:35:02Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - A Fast Randomized Algorithm for Massive Text Normalization [26.602776972067936]
大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。
本アルゴリズムは, 単語間のジャカード類似性を利用して補正結果を提案する。
実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-06T19:18:17Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。