論文の概要: AMALGUM -- A Free, Balanced, Multilayer English Web Corpus
- arxiv url: http://arxiv.org/abs/2006.10677v1
- Date: Thu, 18 Jun 2020 17:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:50:24.812095
- Title: AMALGUM -- A Free, Balanced, Multilayer English Web Corpus
- Title(参考訳): AMALGUM - 自由でバランスの取れた多層Webコーパス
- Authors: Luke Gessler, Siyao Peng, Yang Liu, Yilun Zhu, Shabnam Behzad, Amir
Zeldes
- Abstract要約: ジャンルバランスの取れたウェブコーパスを4Mトークンで提示する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さく手作業で作成した注釈付きデータセットに代わる、より大きな代替手段を提供する。
- 参考スコア(独自算出の注目度): 14.073494095236027
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a freely available, genre-balanced English web corpus totaling 4M
tokens and featuring a large number of high-quality automatic annotation
layers, including dependency trees, non-named entity annotations, coreference
resolution, and discourse trees in Rhetorical Structure Theory. By tapping open
online data sources the corpus is meant to offer a more sizable alternative to
smaller manually created annotated data sets, while avoiding pitfalls such as
imbalanced or unknown composition, licensing problems, and low-quality natural
language processing. We harness knowledge from multiple annotation layers in
order to achieve a "better than NLP" benchmark and evaluate the accuracy of the
resulting resource.
- Abstract(参考訳): 本稿では,4mトークンを集計し,依存性木,非名前エンティティアノテーション,コリファレンス解決,言論木など,多数の高品質な自動アノテーション層を特徴とする,自由でジャンルバランスの取れた英語webコーパスを提案する。
オープンなオンラインデータソースをタップすることで、コーパスはより小さな手作業で作成した注釈付きデータセットの代替として、不均衡や未知のコンポジション、ライセンス問題、低品質の自然言語処理といった落とし穴を避けることを目的としている。
我々は,複数のアノテーション層からの知識を活用して"nlpよりもよい"ベンチマークを実現し,得られたリソースの正確性を評価する。
関連論文リスト
- FASSILA: A Corpus for Algerian Dialect Fake News Detection and Sentiment Analysis [0.0]
アルジェ方言(AD)は、注釈付きコーパスがないため、課題に直面している。
本研究では,Fake News(FN)検出・感情分析(SA)のための専門コーパスの開発プロセスについて概説する。
論文 参考訳(メタデータ) (2024-11-07T10:39:10Z) - DecorateLM: Data Engineering through Corpus Rating, Tagging, and Editing with Language Models [78.51470038301436]
本稿では,データ評価,タグ付け,編集を通じて事前学習コーパスを洗練させるデータエンジニアリング手法であるDecorateLMを紹介する。
次に、DecorateLMを適用して、トレーニングコーパスの100億のトークンを強化し、さらに12億のパラメータLLMのさらなるトレーニングのために、高品質と多様性を実証する45億のトークンを選択します。
その結果、このような高品質なデータを利用することで、モデルの性能を大幅に向上させることができることが示され、事前学習コーパスの品質を高めるための強力なアプローチが示される。
論文 参考訳(メタデータ) (2024-10-08T02:42:56Z) - UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs [19.097842830790405]
要約品質評価のための既存のベンチマークでは、様々な入力シナリオが欠如し、狭い範囲に集中することが多い。
We create UniSumEval benchmark, which extends the range of input context and provide fine-fine, multi-dimensional annotations。
論文 参考訳(メタデータ) (2024-09-30T02:56:35Z) - Separating the Wheat from the Chaff with BREAD: An open-source benchmark
and metrics to detect redundancy in text [9.484323358958706]
BREADは,繰り返しボイラプレートと可塑性言語コンテンツに対する人間ラベル付きベンチマークである。
いくつかの基準値CRED(Character REDundancy)スコアを同時にリリースし,BREADの有効性を評価する。
論文 参考訳(メタデータ) (2023-11-11T00:11:50Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - Exhaustive Entity Recognition for Coptic: Challenges and Solutions [8.980876474818153]
本稿では,エジプトのヘレニズム時代の言語であるコプトの実体認識について述べる。
タスクに対するNLPアプローチを評価し、低リソースで形態学的に複雑な言語に適用することの難しさを概観する。
我々は,ウィキペディアにリンクするネスト付きエンティリティ認識と半自動エンティティを,頑健な依存関係解析,機能ベースのCRFモデル,手作りの知識ベースリソースに頼って,名前付きおよび名前なしのネスト付きエンティリティ認識と半自動エンティティのソリューションを提案する。
論文 参考訳(メタデータ) (2020-11-03T23:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。