論文の概要: Never guess what I heard... Rumor Detection in Finnish News: a Dataset
and a Baseline
- arxiv url: http://arxiv.org/abs/2106.03389v1
- Date: Mon, 7 Jun 2021 07:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 10:20:18.371743
- Title: Never guess what I heard... Rumor Detection in Finnish News: a Dataset
and a Baseline
- Title(参考訳): 何を聞いたか...
フィンランドニュースにおけるうわさ検出:データセットとベースライン
- Authors: Mika H\"am\"al\"ainen, Khalid Alnajjar, Niko Partanen, Jack Rueter
- Abstract要約: 本研究は,フィンランド語ニュースの見出しにおいて,うわさ検出に関する新しいデータセットを提示する。
2つのLSTMモデルと2つのBERTモデルを評価し,結果に大きな違いが認められた。
- 参考スコア(独自算出の注目度): 1.0896567381206714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a new dataset on rumor detection in Finnish language news
headlines. We have evaluated two different LSTM based models and two different
BERT models, and have found very significant differences in the results. A
fine-tuned FinBERT reaches the best overall accuracy of 94.3% and rumor label
accuracy of 96.0% of the time. However, a model fine-tuned on Multilingual BERT
reaches the best factual label accuracy of 97.2%. Our results suggest that the
performance difference is due to a difference in the original training data.
Furthermore, we find that a regular LSTM model works better than one trained
with a pretrained word2vec model. These findings suggest that more work needs
to be done for pretrained models in Finnish language as they have been trained
on small and biased corpora.
- Abstract(参考訳): 本研究は,フィンランド語ニュースの見出しにおいて,うわさ検出に関する新しいデータセットを提示する。
2つのLSTMモデルと2つのBERTモデルを評価し,結果に大きな違いが認められた。
微調整のFiinBERTは94.3%の精度で、噂のラベルの精度は96.0%に達する。
しかし、Multilingual BERTで微調整されたモデルでは97.2%の精度でラベルが付けられている。
結果から,性能差はトレーニングデータの違いによるものであることが示唆された。
さらに、通常のLSTMモデルは、事前訓練されたワード2vecモデルで訓練されたモデルよりもうまく機能することがわかった。
これらの結果は、フィンランド語で事前訓練されたモデルに対して、小さく偏りのあるコーパスで訓練されたため、より多くの作業を行う必要があることを示唆している。
関連論文リスト
- FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。
我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。
我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文 参考訳(メタデータ) (2023-11-03T08:05:04Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - BERT Fine-Tuning for Sentiment Analysis on Indonesian Mobile Apps
Reviews [1.5749416770494706]
本研究では,2種類の事前学習モデルを用いた感情分析における細調整BERTの有効性について検討した。
使用されるデータセットは、インドネシアのGoogle Playサイトで2020年のトップ10アプリのユーザーレビューである。
また,2つのトレーニングデータラベリング手法を用いて,スコアベースとレキシコンベースのモデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-14T16:00:15Z) - Are Larger Pretrained Language Models Uniformly Better? Comparing
Performance at the Instance Level [38.64433236359172]
BERT-Largeは、MNLI、SST-2、QQPのインスタンスの少なくとも1~4%でBERT-Miniよりも悪い。
ファインタニングノイズはモデルサイズとともに増加し、そのインスタンスレベルの精度は運動量を持つ。
以上の結果から,インスタンスレベルの予測は豊富な情報源を提供することが示唆された。
論文 参考訳(メタデータ) (2021-05-13T01:10:51Z) - Language-agnostic BERT Sentence Embedding [14.241717104817713]
単言語および言語間表現の学習に最適な方法を組み合わせることで,多言語文の埋め込みを学習する方法を検討する。
事前学習した多言語言語モデルを導入することで,性能向上に必要な並列トレーニングデータの量を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2020-07-03T17:58:42Z) - FinEst BERT and CroSloEngual BERT: less is more in multilingual models [0.0]
うち1つはフィンランド語、エストニア語、英語で、もう1つはクロアチア語、スロベニア語、英語で訓練します。
多言語BERTとXLM-Rをベースラインとして,NER,POSタグ,依存性解析などの下流タスクの性能評価を行った。
新しいFinEst BERTとCroSloEngual BERTは、ほとんどのモノリンガルおよびクロスランガルな状況において、すべてのタスクの結果を改善した。
論文 参考訳(メタデータ) (2020-06-14T12:54:01Z) - Transferring Monolingual Model to Low-Resource Language: The Case of
Tigrinya [0.0]
本稿では,強力なソース言語モデルを採用するためのコスト効率のよいトランスファー学習手法を提案する。
与えられたTigrinya感情分析データセットの10k例だけで、英語のXLNetは78.88%のF1スコアを達成した。
CLSデータセット上の微調整(英: Fine-tuning)XLNetモデルでは,mBERTと比較して有望な結果が得られる。
論文 参考訳(メタデータ) (2020-06-13T18:53:22Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。