論文の概要: Automatic register identification for the open web using multilingual deep learning
- arxiv url: http://arxiv.org/abs/2406.19892v3
- Date: Tue, 10 Dec 2024 12:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:34:04.011243
- Title: Automatic register identification for the open web using multilingual deep learning
- Title(参考訳): 多言語深層学習を用いたオープンWebの自動レジスタ識別
- Authors: Erik Henriksson, Amanda Myntti, Saara Hellström, Anni Eskelinen, Selcen Erten-Johansson, Veronika Laippala,
- Abstract要約: 本稿では、ディープラーニングモデルが16言語にわたるWebレジスタをどの程度識別できるかについて検討する。
72,504の文書に25のレジスタの階層的分類を付加した多言語COREコーパスについて紹介する。
我々の多言語モデルは、多言語分類を用いて、最先端の結果(79%のF1スコア)を得る。
- 参考スコア(独自算出の注目度): 1.1456104143595247
- License:
- Abstract: This article investigates how well deep learning models can identify web registers -- text varieties such as news reports and discussion forums -- across 16 languages. We introduce the Multilingual CORE corpora, which contain 72,504 documents annotated with a hierarchical taxonomy of 25 registers designed to cover the entire open web. Our multilingual models achieve state-of-the-art results (79% F1 score) using multi-label classification. This performance matches or exceeds previous studies that used simpler classification schemes, showing that models can perform well even with a complex register scheme at a massively multilingual scale. However, we observe a consistent performance ceiling around 77-80% F1 score across all models and configurations. When we remove documents with uncertain labels through data pruning, performance increases to over 90% F1, suggesting that this ceiling stems from inherent ambiguity in web registers rather than model limitations. Analysis of hybrid documents -- texts combining multiple registers -- reveals that the main challenge is not in classifying hybrids themselves, but in distinguishing between hybrid and non-hybrid documents. Multilingual models consistently outperform monolingual ones, particularly helping languages with limited training data. While zero-shot performance drops by an average of 7% on unseen languages, this decrease varies substantially between languages (from 3% to 20%), indicating that while registers share many features across languages, they also maintain language-specific characteristics.
- Abstract(参考訳): 本稿では,16言語にわたる深層学習モデルを用いて,Webレジスタ(ニュースレポートやディスカッションフォーラムなどのテキスト変種)の識別方法について検討する。
オープンウェブ全体をカバーするために設計された25のレジスタの階層的な分類法を付加した72,504の文書を含む多言語COREコーパスについて紹介する。
我々の多言語モデルは、多言語分類を用いて、最先端の結果(79%のF1スコア)を得る。
この性能は、より単純な分類スキームを使った以前の研究と一致するか、あるいは超越している。
しかし,すべてのモデルと構成に対して,77~80%のスコアで一貫したパフォーマンス天井を観測する。
データプルーニングによって不確実なラベルを持つ文書を削除すると、性能は90%以上のF1に向上する。
ハイブリット文書(複数のレジスタを組み合わせたテキスト)の分析は、ハイブリット文書そのものを分類することではなく、ハイブリット文書と非ハイブリッド文書を区別することにある。
多言語モデルは単言語モデルよりも一貫して優れており、特に限られた訓練データを持つ言語を支援する。
ゼロショットのパフォーマンスは、目に見えない言語では平均7%低下するが、これは言語間で大きく異なる(3%から20%)。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Using Language Models on Low-end Hardware [17.33390660481404]
本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性について検討する。
言語モデルとCNNアーキテクチャを組み合わせて、トピック、感情、ジャンルのシングルラベルとマルチラベルの分類をカバーする8つのデータセットで包括的なベンチマークを作成した。
論文 参考訳(メタデータ) (2023-05-03T18:00:03Z) - Language-Agnostic Website Embedding and Classification [12.86558129722198]
92言語で100万以上のWebサイトを持つデータセットをリリースし、Curlieから相対ラベルを収集しました。
ホームページに基づいてWebサイトを分類・埋め込みするマシン学習モデルであるHomepage2Vecを紹介する。
ホームページ2Vecは、マクロ平均F1スコア0.90のWebサイトを正しく分類し、低および高ソース言語で安定したパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-01-10T22:31:48Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Beyond the English Web: Zero-Shot Cross-Lingual and Lightweight
Monolingual Classification of Registers [0.6526029433717663]
Web文書のレジスタ分類のクロスリンガル転送について検討する。
フランス語とスウェーデン語の2つの新しいレジスタアノテートコーポラ、FreCOREとSweCOREを紹介します。
深い学習済み言語モデルは、これらの言語で強く機能し、英語とフィンランド語の以前の最新技術を上回る性能を発揮します。
論文 参考訳(メタデータ) (2021-02-15T08:40:08Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。