論文の概要: SaRoCo: Detecting Satire in a Novel Romanian Corpus of News Articles
- arxiv url: http://arxiv.org/abs/2105.06456v1
- Date: Thu, 13 May 2021 17:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:09:52.195869
- Title: SaRoCo: Detecting Satire in a Novel Romanian Corpus of News Articles
- Title(参考訳): SaRoCo:新しいルーマニアのニュース記事のコーパスでサファイアを検出する
- Authors: Ana-Cristina Rogoz, Mihaela Gaman, Radu Tudor Ionescu
- Abstract要約: 言語に関係なく風刺検出のための最大のコーポラの一つであり、ルーマニア語のための唯一のコーポラである。
2つの最先端のディープニューラルモデルで実験を行い、その結果、新しいコーパスの強力なベースラインが出来上がった。
その結果,ルーマニア語における風刺検出の機械レベルの精度は,人間レベルの精度(87%)に比べ非常に低く,今後の研究に十分な改善の余地を残していることがわかった。
- 参考スコア(独自算出の注目度): 15.877673959068455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce a corpus for satire detection in Romanian news. We
gathered 55,608 public news articles from multiple real and satirical news
sources, composing one of the largest corpora for satire detection regardless
of language and the only one for the Romanian language. We provide an official
split of the text samples, such that training news articles belong to different
sources than test news articles, thus ensuring that models do not achieve high
performance simply due to overfitting. We conduct experiments with two
state-of-the-art deep neural models, resulting in a set of strong baselines for
our novel corpus. Our results show that the machine-level accuracy for satire
detection in Romanian is quite low (under 73% on the test set) compared to the
human-level accuracy (87%), leaving enough room for improvement in future
research.
- Abstract(参考訳): 本稿では,ルーマニアニュースにおける風刺検出のためのコーパスを提案する。
我々は、複数の現実および風刺的なニュースソースから55,608件のニュース記事を収集し、言語に関係なく、ルーマニア語で唯一風刺検出のための最大のコーパスの1つを作成した。
本稿では,テストニュース記事と異なる情報源に属するニュース記事のトレーニングを行うためのテキストサンプルを公式に分割し,過度な適合のため,モデルがハイパフォーマンスを達成できないことを保証する。
2つの最先端のディープニューラルモデルで実験を行い、その結果、新しいコーパスの強力なベースラインが出来上がった。
その結果,ルーマニア語における風刺検出の機械レベルの精度は,人間レベルの精度(87%)に比べ非常に低く,今後の研究に十分な改善の余地を残していることがわかった。
関連論文リスト
- Adapting Fake News Detection to the Era of Large Language Models [48.5847914481222]
我々は,機械による(言い換えられた)リアルニュース,機械生成のフェイクニュース,人書きのフェイクニュース,人書きのリアルニュースの相互作用について検討する。
我々の実験では、人書き記事のみに特化して訓練された検知器が、機械が生成したフェイクニュースを検出できる興味深いパターンを明らかにしましたが、その逆ではありません。
論文 参考訳(メタデータ) (2023-11-02T08:39:45Z) - Tackling Fake News in Bengali: Unraveling the Impact of Summarization vs. Augmentation on Pre-trained Language Models [0.0]
ベンガル語で偽ニュースを分類するための4つの異なるアプローチからなる方法論を提案する。
弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。
ベンガル語偽ニュース検出における要約と拡張の有効性を示す。
論文 参考訳(メタデータ) (2023-07-13T14:50:55Z) - LTCR: Long-Text Chinese Rumor Detection Dataset [14.503426768310536]
LTCRという長文中国噂データセットが提案されている。
データセットは、それぞれ1,729件のリアルニュースと500件のフェイクニュースで構成されている。
実ニュースと偽ニュースの平均長は約230文字と152文字である。
論文 参考訳(メタデータ) (2023-06-12T16:03:36Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - Faking Fake News for Real Fake News Detection: Propaganda-loaded
Training Data Generation [105.20743048379387]
提案手法は,人間によるプロパガンダのスタイルや戦略から情報を得た学習例を生成するための新しいフレームワークである。
具体的には、生成した記事の有効性を確保するために、自然言語推論によって導かれる自己臨界シーケンストレーニングを行う。
実験の結果、PropaNewsでトレーニングされた偽ニュース検知器は、2つの公開データセットで3.62~7.69%のF1スコアで人書きの偽情報を検出するのに優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-10T14:24:19Z) - Similarity Detection Pipeline for Crawling a Topic Related Fake News
Corpus [0.0]
本稿では,偽ニュース検出のためのドイツ語トピック関連コーパスを提案する。
同様のニュース記事をクロールするためのパイプラインも開発しています。
第3の貢献として、偽ニュースを検出するための異なる学習実験を実施しました。
論文 参考訳(メタデータ) (2020-09-28T14:35:31Z) - Birds of a Feather Flock Together: Satirical News Detection via Language
Model Differentiation [7.556286423133077]
風刺的なニュースでは、文脈の語彙的・実践的な属性が読者を楽しませる上で重要な要素である。
本稿では,風刺ニュースと真のニュースを区別する手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T18:46:36Z) - Satirical News Detection with Semantic Feature Extraction and
Game-theoretic Rough Sets [5.326582776477692]
本稿では,風刺的なニュースツイートを検出するための意味的特徴に基づくアプローチを提案する。
特徴は、句、実体、および主節と相対節の間の矛盾を探索することによって抽出される。
確率しきい値がゲーム平衡と繰り返し学習機構によって導出される風刺ニュースを検出するために,ゲーム理論ラフセットモデルを適用した。
論文 参考訳(メタデータ) (2020-04-08T03:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。