論文の概要: Untangling the Unrestricted Web: Automatic Identification of Multilingual Registers
- arxiv url: http://arxiv.org/abs/2406.19892v1
- Date: Fri, 28 Jun 2024 13:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 16:50:10.509315
- Title: Untangling the Unrestricted Web: Automatic Identification of Multilingual Registers
- Title(参考訳): 制限のないWebをアンタングする:多言語登録の自動識別
- Authors: Erik Henriksson, Amanda Myntti, Anni Eskelinen, Selcen Erten-Johansson, Saara Hellström, Veronika Laippala,
- Abstract要約: 本稿では16言語にわたるWebベースのデータセットにおけるレジスタの自動識別のためのディープラーニングモデルについて検討する。
モデルが最先端の結果を達成し、階層的なマルチラベル設定における詳細な分類が、競争力のある分類性能をもたらすことを示した。
- 参考スコア(独自算出の注目度): 1.1456104143595247
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This article explores deep learning models for the automatic identification of registers - text varieties such as news reports and discussion forums - in web-based datasets across 16 languages. Web register (or genre) identification would provide a robust solution for understanding the content of web-scale datasets, which have become crucial in computational linguistics. Despite recent advances, the potential of register classifiers on the noisy web remains largely unexplored, particularly in multilingual settings and when targeting the entire unrestricted web. We experiment with a range of deep learning models using the new Multilingual CORE corpora, which includes 16 languages annotated using a detailed, hierarchical taxonomy of 25 registers designed to cover the entire unrestricted web. Our models achieve state-of-the-art results, showing that a detailed taxonomy in a hierarchical multi-label setting can yield competitive classification performance. However, all models hit a glass ceiling at approximately 80% F1 score, which we attribute to the non-discrete nature of web registers and the inherent uncertainty in labeling some documents. By pruning ambiguous examples, we improve model performance to over 90%. Finally, multilingual models outperform monolingual ones, particularly benefiting languages with fewer training examples and smaller registers. Although a zero-shot setting decreases performance by an average of 7%, these drops are not linked to specific registers or languages. Instead, registers show surprising similarity across languages.
- Abstract(参考訳): 本稿では16言語にわたるWebベースデータセットにおけるレジスタの自動識別のためのディープラーニングモデルについて検討する。
Webレジスタ(またはジャンル)の識別は、計算言語学において重要になったWebスケールデータセットの内容を理解するための堅牢なソリューションを提供する。
近年の進歩にもかかわらず、ノイズの多いWeb上のレジスタ分類器の可能性は、特に多言語設定や、制限のないWeb全体を対象としている場合、ほとんど探索されていないままである。
我々は、新しい多言語COREコーパスを用いて、さまざまなディープラーニングモデルを実験した。これは、制限のないWeb全体をカバーするように設計された25のレジスタの詳細な階層的な分類法を用いて、注釈付き16の言語を含む。
本モデルでは,階層的マルチラベル設定における詳細な分類が,競争力のある分類性能をもたらすことを示す。
しかし、全てのモデルが約80%のF1スコアでガラス天井に衝突し、これはウェブレジスタの非離散性と、いくつかの文書をラベル付けする際固有の不確実性に起因する。
あいまいな例を抽出することにより、モデル性能を90%以上改善する。
最後に、多言語モデルは単言語モデルよりも優れており、特に少ないトレーニング例と少ないレジスタを持つ言語の恩恵を受けている。
ゼロショット設定はパフォーマンスを平均7%低下させるが、これらのドロップは特定のレジスタや言語に関連付けられていない。
その代わり、レジスタは言語間で驚くほどの類似性を示している。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Using Language Models on Low-end Hardware [17.33390660481404]
本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性について検討する。
言語モデルとCNNアーキテクチャを組み合わせて、トピック、感情、ジャンルのシングルラベルとマルチラベルの分類をカバーする8つのデータセットで包括的なベンチマークを作成した。
論文 参考訳(メタデータ) (2023-05-03T18:00:03Z) - Massively Multilingual ASR on 70 Languages: Tokenization, Architecture,
and Generalization Capabilities [35.15674061731237]
本稿では70言語における大規模多言語ASRモデルについて検討する。
マルチリンガルASRは, ゼロショットとファインタニングを併用したMLSにおいて, 9.5%と7.5%のWERを達成した。
論文 参考訳(メタデータ) (2022-11-10T18:43:42Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Language-Agnostic Website Embedding and Classification [12.86558129722198]
92言語で100万以上のWebサイトを持つデータセットをリリースし、Curlieから相対ラベルを収集しました。
ホームページに基づいてWebサイトを分類・埋め込みするマシン学習モデルであるHomepage2Vecを紹介する。
ホームページ2Vecは、マクロ平均F1スコア0.90のWebサイトを正しく分類し、低および高ソース言語で安定したパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-01-10T22:31:48Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Beyond the English Web: Zero-Shot Cross-Lingual and Lightweight
Monolingual Classification of Registers [0.6526029433717663]
Web文書のレジスタ分類のクロスリンガル転送について検討する。
フランス語とスウェーデン語の2つの新しいレジスタアノテートコーポラ、FreCOREとSweCOREを紹介します。
深い学習済み言語モデルは、これらの言語で強く機能し、英語とフィンランド語の以前の最新技術を上回る性能を発揮します。
論文 参考訳(メタデータ) (2021-02-15T08:40:08Z) - Language ID in the Wild: Unexpected Challenges on the Path to a
Thousand-Language Web Text Corpus [15.807197703827818]
我々は最大1,629の言語でLangIDモデルをトレーニングします。
これらのモデルを用いて作成したウェブクロールテキストコーパスの人手によるLangID精度は、多くの低リソース言語では5%程度であることがわかった。
本稿では,ワードリストに基づく可変精度フィルタとトランスフォーマーに基づく半教師付きラングIDモデルという2種類の手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T19:29:17Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。