論文の概要: Automatic register identification for the open web using multilingual deep learning
- arxiv url: http://arxiv.org/abs/2406.19892v3
- Date: Tue, 10 Dec 2024 12:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:34:04.011243
- Title: Automatic register identification for the open web using multilingual deep learning
- Title(参考訳): 多言語深層学習を用いたオープンWebの自動レジスタ識別
- Authors: Erik Henriksson, Amanda Myntti, Saara Hellström, Anni Eskelinen, Selcen Erten-Johansson, Veronika Laippala,
- Abstract要約: 本稿では、ディープラーニングモデルが16言語にわたるWebレジスタをどの程度識別できるかについて検討する。
72,504の文書に25のレジスタの階層的分類を付加した多言語COREコーパスについて紹介する。
我々の多言語モデルは、多言語分類を用いて、最先端の結果(79%のF1スコア)を得る。
- 参考スコア(独自算出の注目度): 1.1456104143595247
- License:
- Abstract: This article investigates how well deep learning models can identify web registers -- text varieties such as news reports and discussion forums -- across 16 languages. We introduce the Multilingual CORE corpora, which contain 72,504 documents annotated with a hierarchical taxonomy of 25 registers designed to cover the entire open web. Our multilingual models achieve state-of-the-art results (79% F1 score) using multi-label classification. This performance matches or exceeds previous studies that used simpler classification schemes, showing that models can perform well even with a complex register scheme at a massively multilingual scale. However, we observe a consistent performance ceiling around 77-80% F1 score across all models and configurations. When we remove documents with uncertain labels through data pruning, performance increases to over 90% F1, suggesting that this ceiling stems from inherent ambiguity in web registers rather than model limitations. Analysis of hybrid documents -- texts combining multiple registers -- reveals that the main challenge is not in classifying hybrids themselves, but in distinguishing between hybrid and non-hybrid documents. Multilingual models consistently outperform monolingual ones, particularly helping languages with limited training data. While zero-shot performance drops by an average of 7% on unseen languages, this decrease varies substantially between languages (from 3% to 20%), indicating that while registers share many features across languages, they also maintain language-specific characteristics.
- Abstract(参考訳): 本稿では,16言語にわたる深層学習モデルを用いて,Webレジスタ(ニュースレポートやディスカッションフォーラムなどのテキスト変種)の識別方法について検討する。
オープンウェブ全体をカバーするために設計された25のレジスタの階層的な分類法を付加した72,504の文書を含む多言語COREコーパスについて紹介する。
我々の多言語モデルは、多言語分類を用いて、最先端の結果(79%のF1スコア)を得る。
この性能は、より単純な分類スキームを使った以前の研究と一致するか、あるいは超越している。
しかし,すべてのモデルと構成に対して,77~80%のスコアで一貫したパフォーマンス天井を観測する。
データプルーニングによって不確実なラベルを持つ文書を削除すると、性能は90%以上のF1に向上する。
ハイブリット文書(複数のレジスタを組み合わせたテキスト)の分析は、ハイブリット文書そのものを分類することではなく、ハイブリット文書と非ハイブリッド文書を区別することにある。
多言語モデルは単言語モデルよりも一貫して優れており、特に限られた訓練データを持つ言語を支援する。
ゼロショットのパフォーマンスは、目に見えない言語では平均7%低下するが、これは言語間で大きく異なる(3%から20%)。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Using Language Models on Low-end Hardware [17.33390660481404]
本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性について検討する。
言語モデルとCNNアーキテクチャを組み合わせて、トピック、感情、ジャンルのシングルラベルとマルチラベルの分類をカバーする8つのデータセットで包括的なベンチマークを作成した。
論文 参考訳(メタデータ) (2023-05-03T18:00:03Z) - Massively Multilingual ASR on 70 Languages: Tokenization, Architecture,
and Generalization Capabilities [35.15674061731237]
本稿では70言語における大規模多言語ASRモデルについて検討する。
マルチリンガルASRは, ゼロショットとファインタニングを併用したMLSにおいて, 9.5%と7.5%のWERを達成した。
論文 参考訳(メタデータ) (2022-11-10T18:43:42Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Language-Agnostic Website Embedding and Classification [12.86558129722198]
92言語で100万以上のWebサイトを持つデータセットをリリースし、Curlieから相対ラベルを収集しました。
ホームページに基づいてWebサイトを分類・埋め込みするマシン学習モデルであるHomepage2Vecを紹介する。
ホームページ2Vecは、マクロ平均F1スコア0.90のWebサイトを正しく分類し、低および高ソース言語で安定したパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-01-10T22:31:48Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Beyond the English Web: Zero-Shot Cross-Lingual and Lightweight
Monolingual Classification of Registers [0.6526029433717663]
Web文書のレジスタ分類のクロスリンガル転送について検討する。
フランス語とスウェーデン語の2つの新しいレジスタアノテートコーポラ、FreCOREとSweCOREを紹介します。
深い学習済み言語モデルは、これらの言語で強く機能し、英語とフィンランド語の以前の最新技術を上回る性能を発揮します。
論文 参考訳(メタデータ) (2021-02-15T08:40:08Z) - Language ID in the Wild: Unexpected Challenges on the Path to a
Thousand-Language Web Text Corpus [15.807197703827818]
我々は最大1,629の言語でLangIDモデルをトレーニングします。
これらのモデルを用いて作成したウェブクロールテキストコーパスの人手によるLangID精度は、多くの低リソース言語では5%程度であることがわかった。
本稿では,ワードリストに基づく可変精度フィルタとトランスフォーマーに基づく半教師付きラングIDモデルという2種類の手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T19:29:17Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。