論文の概要: The GINCO Training Dataset for Web Genre Identification of Documents Out
in the Wild
- arxiv url: http://arxiv.org/abs/2201.03857v1
- Date: Tue, 11 Jan 2022 09:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 18:02:17.057571
- Title: The GINCO Training Dataset for Web Genre Identification of Documents Out
in the Wild
- Title(参考訳): 野生の文書のWebジェネア識別のためのGINCOトレーニングデータセット
- Authors: Taja Kuzman, Peter Rupnik and Nikola Ljube\v{s}i\'c
- Abstract要約: データセットは、機械翻訳コンテンツ、エンコーディングエラー、ひとつのドキュメントに表示される複数のコンテンツなど、Webベースのデータに関連するさまざまな課題で構成されている。
最初の機械学習実験では、(1)トランスフォーマー前のモデルでは0.22程度のマクロF1メトリクスで現象をモデル化することができず、(2)トランスフォーマーベースのモデルは0.58のスコアを獲得し、(2)マルチリンガルトランスフォーマーモデルは、標準NLPタスクのマルチリンガルモデルよりも優れていることが証明されたモノリンガルモデルと同様にタスク上でも動作することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a new training dataset for automatic genre identification
GINCO, which is based on 1,125 crawled Slovenian web documents that consist of
650 thousand words. Each document was manually annotated for genre with a new
annotation schema that builds upon existing schemata, having primarily clarity
of labels and inter-annotator agreement in mind. The dataset consists of
various challenges related to web-based data, such as machine translated
content, encoding errors, multiple contents presented in one document etc.,
enabling evaluation of classifiers in realistic conditions. The initial machine
learning experiments on the dataset show that (1) pre-Transformer models are
drastically less able to model the phenomena, with macro F1 metrics ranging
around 0.22, while Transformer-based models achieve scores of around 0.58, and
(2) multilingual Transformer models work as well on the task as the monolingual
models that were previously proven to be superior to multilingual models on
standard NLP tasks.
- Abstract(参考訳): 本稿では,6万語からなる1,125クロールされたスロベニア語 web 文書に基づく,ジャンル識別用自動学習データセットを提案する。
各ドキュメントは、既存のスキーマ上に構築された新しいアノテーションスキーマを使って、ジャンル向けに手作業で注釈付けされ、主にラベルとアノテーション間の合意を念頭に置いている。
このデータセットは、機械翻訳コンテンツ、エンコーディングエラー、一つの文書に表示される複数のコンテンツなど、Webベースのデータに関連するさまざまな課題で構成され、現実的な条件下での分類器の評価を可能にする。
データセット上の最初の機械学習実験では、(1)プリトランスフォーマモデルでは、マクロf1メトリクスが約0.22で、一方、トランスフォーマベースモデルは約0.58点、(2)マルチリンガルトランスフォーマモデルは、これまで標準nlpタスクでマルチリンガルモデルよりも優れていることが証明されていた単言語モデルと同様に、タスクでも動作する、という結果が得られた。
関連論文リスト
- GlossLM: A Massively Multilingual Corpus and Pretrained Model for Interlinear Glossed Text [39.846419973203744]
我々は、1.8k言語にまたがる450万以上のサンプルを網羅し、様々なソースからIGT(Interlinear glossed Text)データをコンパイルする。
私たちは、多くのデータを標準化して、言語間でのラベルの標準セットに従います。
多くの言語が十分な単言語データを持っていないため、私たちはコーパス上で大きな多言語モデルを事前訓練します。
モノリンガルコーパスを微調整し,SOTAモデルを最大6.6%向上させることにより,本モデルの有用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T03:21:15Z) - A Multi-Modal Multilingual Benchmark for Document Image Classification [21.7518357653137]
新たに作成した2つの多言語データセットWIKI-DOCと MultiEUR-DOCLEXを紹介する。
我々は、文書画像分類における未検証設定において、視覚的に豊富な文書理解や文書AIモデルについて研究する。
実験結果から,多言語間移動における多言語文書AIモデルの限界が示された。
論文 参考訳(メタデータ) (2023-10-25T04:35:06Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - BERT-Flow-VAE: A Weakly-supervised Model for Multi-Label Text
Classification [0.5156484100374058]
本稿では,全監督の必要性を低減させる多ラベルテキスト分類モデルであるBERT-Flow-VAE(BFV)を提案する。
6つのマルチラベルデータセットの実験結果から、BFVは他のベースラインWSMLTCモデルをキーメトリクスで大幅に上回る結果が得られた。
論文 参考訳(メタデータ) (2022-10-27T07:18:56Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - DOCmT5: Document-Level Pretraining of Multilingual Language Models [9.072507490639218]
DOCmT5は,大規模並列文書を事前学習した多言語列列列言語モデルである。
本稿では, 簡易かつ効果的な事前学習目標である文書順序付け機械翻訳を提案する。
DrMTは、さまざまなドキュメントレベルの生成タスクに対して、強力なベースラインよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2021-12-16T08:58:52Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Rethinking Document-level Neural Machine Translation [73.42052953710605]
現在のモデルでは、ドキュメントレベルの翻訳に十分な能力がありますか?
適切なトレーニング技術を持つオリジナルのトランスフォーマーは,2000語の長さであっても,文書翻訳の強力な結果が得られることを観察する。
論文 参考訳(メタデータ) (2020-10-18T11:18:29Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。