論文の概要: Evaluating BERT-based Pre-training Language Models for Detecting
Misinformation
- arxiv url: http://arxiv.org/abs/2203.07731v1
- Date: Tue, 15 Mar 2022 08:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 03:11:42.896374
- Title: Evaluating BERT-based Pre-training Language Models for Detecting
Misinformation
- Title(参考訳): 誤情報検出のためのBERTに基づく事前学習言語モデルの評価
- Authors: Rini Anggrainingsih, Ghulam Mubashar Hassan and Amitava Datta
- Abstract要約: オンラインに投稿された全ての情報に対する監督が欠如しているため、オンライン情報の質を制御することは困難である。
誤報の拡散による悪影響を抑えるために, 自動的噂検出技術が必要である。
本研究では、BERTに基づく事前学習言語モデルを用いて、テキストデータをベクトルにエンコードし、ニューラルネットワークモデルを用いてこれらのベクトルを分類し、誤情報を検出する。
- 参考スコア(独自算出の注目度): 2.1915057426589746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is challenging to control the quality of online information due to the
lack of supervision over all the information posted online. Manual checking is
almost impossible given the vast number of posts made on online media and how
quickly they spread. Therefore, there is a need for automated rumour detection
techniques to limit the adverse effects of spreading misinformation. Previous
studies mainly focused on finding and extracting the significant features of
text data. However, extracting features is time-consuming and not a highly
effective process. This study proposes the BERT- based pre-trained language
models to encode text data into vectors and utilise neural network models to
classify these vectors to detect misinformation. Furthermore, different
language models (LM) ' performance with different trainable parameters was
compared. The proposed technique is tested on different short and long text
datasets. The result of the proposed technique has been compared with the
state-of-the-art techniques on the same datasets. The results show that the
proposed technique performs better than the state-of-the-art techniques. We
also tested the proposed technique by combining the datasets. The results
demonstrated that the large data training and testing size considerably
improves the technique's performance.
- Abstract(参考訳): オンラインに投稿された全ての情報に対する監督が欠如しているため、オンライン情報の質を制御することは困難である。
オンラインメディア上の大量の投稿と、それがいかに急速に拡散したかを考えると、手動によるチェックはほとんど不可能だ。
そのため,誤情報拡散の悪影響を抑えるために,自動噂検出技術が必要である。
これまでの研究は主にテキストデータの重要な特徴の発見と抽出に重点を置いていた。
しかし、抽出機能は時間がかかり、非常に効果的なプロセスではない。
本研究では,テキストデータをベクトルにエンコードするbert型事前学習言語モデルを提案し,ニューラルネットワークモデルを用いてこれらのベクトルを分類し,誤情報を検出する。
Furthermore, different language models (LM) ' performance with different trainable parameters was compared. The proposed technique is tested on different short and long text datasets. The result of the proposed technique has been compared with the state-of-the-art techniques on the same datasets. The results show that the proposed technique performs better than the state-of-the-art techniques. We also tested the proposed technique by combining the datasets. The results demonstrated that the large data training and testing size considerably improves the technique's performance.
関連論文リスト
- Investigating the Impact of Semi-Supervised Methods with Data Augmentation on Offensive Language Detection in Romanian Language [2.2823100315094624]
攻撃的な言語検出は、今日のデジタルランドスケープにおいて重要なタスクです。
堅牢な攻撃的言語検出モデルを構築するには、大量のラベル付きデータが必要である。
半教師付き学習はラベル付きおよびラベルなしのデータを活用することで実現可能なソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-29T15:02:51Z) - Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。
我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文 参考訳(メタデータ) (2024-06-03T13:58:04Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Towards Better Query Classification with Multi-Expert Knowledge
Condensation in JD Ads Search [12.701416688678622]
浅いモデル FastText は効率的なオンライン推論に広く使われている。
BERTは効果的なソリューションですが、オンライン推論のレイテンシが高くなり、計算コストも高くなります。
本稿では,厳密な低レイテンシ制約下でのオンラインFastTextモデルの分類性能を高めるための知識凝縮法を提案する。
論文 参考訳(メタデータ) (2023-08-02T12:05:01Z) - DetectLLM: Leveraging Log Rank Information for Zero-Shot Detection of
Machine-Generated Text [26.02072055825044]
ログランク情報を利用して、機械生成テキストを検出する新しいゼロショット手法を2つ導入する。
ひとつは高速で効率のよい DetectLLM-LRR で、もうひとつは DetectLLM-NPR と呼ばれ、より正確だが摂動が必要なため遅い。
3つのデータセットと7つの言語モデルによる実験により,提案手法は3.9点,1.75点のAUROC点を絶対的に改善することを確認した。
論文 参考訳(メタデータ) (2023-05-23T11:18:30Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。
特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。
実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T13:46:35Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。