論文の概要: Separating the Wheat from the Chaff with BREAD: An open-source benchmark
and metrics to detect redundancy in text
- arxiv url: http://arxiv.org/abs/2311.06440v1
- Date: Sat, 11 Nov 2023 00:11:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 18:33:05.462096
- Title: Separating the Wheat from the Chaff with BREAD: An open-source benchmark
and metrics to detect redundancy in text
- Title(参考訳): ChaffからBREADでWheatを分離する - テキストの冗長性を検出するためのオープンソースのベンチマークとメトリクス
- Authors: Isaac Caswell, Lisa Wang, Isabel Papadimitriou
- Abstract要約: BREADは,繰り返しボイラプレートと可塑性言語コンテンツに対する人間ラベル付きベンチマークである。
いくつかの基準値CRED(Character REDundancy)スコアを同時にリリースし,BREADの有効性を評価する。
- 参考スコア(独自算出の注目度): 9.484323358958706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality is a problem that perpetually resurfaces throughout the field of
NLP, regardless of task, domain, or architecture, and remains especially severe
for lower-resource languages. A typical and insidious issue, affecting both
training data and model output, is data that is repetitive and dominated by
linguistically uninteresting boilerplate, such as price catalogs or
computer-generated log files. Though this problem permeates many web-scraped
corpora, there has yet to be a benchmark to test against, or a systematic study
to find simple metrics that generalize across languages and agree with human
judgements of data quality. In the present work, we create and release BREAD, a
human-labeled benchmark on repetitive boilerplate vs. plausible linguistic
content, spanning 360 languages. We release several baseline CRED (Character
REDundancy) scores along with it, and evaluate their effectiveness on BREAD. We
hope that the community will use this resource to develop better filtering
methods, and that our reference implementations of CRED scores can become
standard corpus evaluation tools, driving the development of cleaner language
modeling corpora, especially in low-resource languages.
- Abstract(参考訳): データ品質は、タスク、ドメイン、アーキテクチャに関係なく、NLPの分野全体に永久に再浮上する問題であり、低リソース言語では特に深刻な問題である。
トレーニングデータとモデル出力の両方に影響を及ぼす典型的な悪質な問題は、反復的であり、価格カタログやコンピュータ生成ログファイルのような言語的に興味のないボイラープレートによって支配されるデータである。
この問題は多くのWebスクレイプコーパスに浸透しているが、テストするベンチマークや、言語全体にわたって一般化し、データ品質の人間の判断に同意する単純なメトリクスを見つけるための体系的な研究はまだない。
本研究では,360言語にまたがる反復型ボイラープレート対有理言語コンテンツに関する人間ラベルベンチマークであるbreadを作成・公開する。
いくつかの基準値CRED(Character REDundancy)スコアを同時にリリースし,BREADの有効性を評価する。
コミュニティはこのリソースをより優れたフィルタリング方法の開発に利用し、credスコアのリファレンス実装が標準的なコーパス評価ツールになり、クリーンな言語モデリングコーパス、特に低リソース言語の開発を促進することを願っています。
関連論文リスト
- Empowering Low-Resource Language ASR via Large-Scale Pseudo Labeling [24.870429379543193]
我々は、Hindiに焦点をあてて、ASRの低リソース言語のための限定ラベル付きデータに挑戦する。
本フレームワークは,音声とテキストのペアを評価するための複数のベースモデルと評価器を統合し,低リソース言語に対するロバストな擬似ラベリングを実現する。
我々は,複数のコンテンツカテゴリの多様なYouTubeオーディオファイルからなる新しいベンチマークであるIndicYTを用いて,アプローチを検証する。
論文 参考訳(メタデータ) (2024-08-26T05:36:35Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。