論文の概要: Monolingual and Cross-Lingual Knowledge Transfer for Topic
Classification
- arxiv url: http://arxiv.org/abs/2306.07797v1
- Date: Tue, 13 Jun 2023 14:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 13:22:26.732201
- Title: Monolingual and Cross-Lingual Knowledge Transfer for Topic
Classification
- Title(参考訳): 話題分類のための単言語・クロス言語知識伝達
- Authors: Dmitry Karpov, Mikhail Burtsev
- Abstract要約: このデータセットは、大規模なサンプル数(361,560シングルラベル、170,930マルチラベル)と広範なクラスカバレッジ(76クラス)を組み合わせる。
ロシアのMASSIVEサブセットの6つのマッチングクラスのトレーニングモデルであるRuQTopicsを評価することで、RuQTopicsデータセットが現実世界の会話タスクに適していることが証明された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article investigates the knowledge transfer from the RuQTopics dataset.
This Russian topical dataset combines a large sample number (361,560
single-label, 170,930 multi-label) with extensive class coverage (76 classes).
We have prepared this dataset from the "Yandex Que" raw data. By evaluating the
RuQTopics - trained models on the six matching classes of the Russian MASSIVE
subset, we have proved that the RuQTopics dataset is suitable for real-world
conversational tasks, as the Russian-only models trained on this dataset
consistently yield an accuracy around 85\% on this subset. We also have figured
out that for the multilingual BERT, trained on the RuQTopics and evaluated on
the same six classes of MASSIVE (for all MASSIVE languages), the language-wise
accuracy closely correlates (Spearman correlation 0.773 with p-value 2.997e-11)
with the approximate size of the pretraining BERT's data for the corresponding
language. At the same time, the correlation of the language-wise accuracy with
the linguistical distance from Russian is not statistically significant.
- Abstract(参考訳): 本稿では,RuQTopicsデータセットからの知識伝達について検討する。
このロシアのトピックデータセットは、大規模なサンプル番号(361,560シングルラベル、170,930マルチラベル)と広範なクラスカバレッジ(76クラス)を組み合わせたものだ。
このデータセットは"yandex que"生データから作成しました。
ロシアのMASSIVEサブセットの6つのマッチングクラスでトレーニングされたRuQTopicsモデルを評価することで、このデータセットでトレーニングされたロシアのみのモデルは、このサブセットで連続して85%の精度が得られるため、RuQTopicsデータセットが現実世界の会話タスクに適していることが証明された。
また、RuQTopicsで訓練し、MASSIVEの6つのクラス(すべてのMASSIVE言語)で評価した多言語BERTに対して、言語知能の相関(スピアマン相関0.773とp値2.997e-11)と、それに対応する言語に対するBERTのデータの近似サイズとが密接に関連していることが判明した。
同時に、言語学的精度とロシア語との言語的距離の相関は統計的に有意ではない。
関連論文リスト
- DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Synthetic Dataset Creation and Fine-Tuning of Transformer Models for Question Answering in Serbian [0.0]
我々は、SQuAD-srという名前の87K以上のサンプルからなるセルビア最大のQAデータセットを作成します。
セルビア語でスクリプトの双対性を認めるために、我々はデータセットのキリル文字版とラテン文字版の両方を生成した。
最高の結果は、私たちのラテンSQuAD-srデータセット上でBERTi'cモデルを微調整し、73.91%のExact Matchと82.97%のF1スコアを得たことである。
論文 参考訳(メタデータ) (2024-04-12T17:27:54Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - Improving Results on Russian Sentiment Datasets [0.0]
この研究のすべての感情タスクにおいて、ロシア語 BERT の会話型はより良く機能することを示す。
その結果,感情分類タスクを自然言語推論タスクとして扱うBERT-NLIモデルが得られた。
論文 参考訳(メタデータ) (2020-07-28T15:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。