論文の概要: Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data
- arxiv url: http://arxiv.org/abs/2207.00489v1
- Date: Fri, 1 Jul 2022 15:23:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 16:09:58.643048
- Title: Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data
- Title(参考訳): panning for gold: プラットフォームに依存しないテキストデータによる政治的コンテンツの自動検出から学んだ教訓
- Authors: Mykola Makhortykh, Ernesto de Le\'on, Aleksandra Urman, Clara
Christner, Maryna Sydorova, Silke Adam, Michaela Maier, and Teresa Gil-Lopez
- Abstract要約: 異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
- 参考スコア(独自算出の注目度): 48.7576911714538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing availability of data about online information behaviour enables
new possibilities for political communication research. However, the volume and
variety of these data makes them difficult to analyse and prompts the need for
developing automated content approaches relying on a broad range of natural
language processing techniques (e.g. machine learning- or neural network-based
ones). In this paper, we discuss how these techniques can be used to detect
political content across different platforms. Using three validation datasets,
which include a variety of political and non-political textual documents from
online platforms, we systematically compare the performance of three groups of
detection techniques relying on dictionaries, supervised machine learning, or
neural networks. We also examine the impact of different modes of data
preprocessing (e.g. stemming and stopword removal) on the low-cost
implementations of these techniques using a large set (n = 66) of detection
models. Our results show the limited impact of preprocessing on model
performance, with the best results for less noisy data being achieved by neural
network- and machine-learning-based models, in contrast to the more robust
performance of dictionary-based models on noisy data.
- Abstract(参考訳): オンライン情報行動に関するデータの普及は、政治コミュニケーション研究に新たな可能性をもたらす。
しかし、これらのデータの量と多様性によって分析が難しくなり、さまざまな自然言語処理技術(機械学習やニューラルネットワークベースのものなど)に依存する自動コンテンツアプローチの開発が必要になる。
本稿では、これらの手法を用いて、異なるプラットフォーム間の政治コンテンツを検出する方法について論じる。
オンラインプラットフォームからの様々な政治的および非政治的テキスト文書を含む3つの検証データセットを用いて,辞書や教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを体系的に比較した。
また,大集合 (n = 66) の検出モデルを用いて,これらの手法の低コスト実装に対するデータ前処理(例えば,ステッピングやストップワード除去)の異なるモードの影響について検討した。
その結果,ニューラルネットモデルと機械学習モデルによって得られるノイズの少ないデータに対して,先行処理がモデル性能に与える影響は限定的であることが判明した。
関連論文リスト
- End-to-End triplet loss based fine-tuning for network embedding in effective PII detection [0.12289361708127873]
本稿では,モバイルパケット中のPIIの露出を予測するための,ディープラーニングに基づくエンドツーエンド学習フレームワークを提案する。
このフレームワークは、トレーニング済みの大規模言語モデル(LLM)とオートエンコーダを使用して、ネットワークパケットの埋め込みを生成する。
提案する検出フレームワークと,ユーザのデバイスからPIIリークを検出する技術について比較した。
論文 参考訳(メタデータ) (2025-02-13T06:43:46Z) - Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。
本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文 参考訳(メタデータ) (2024-10-10T13:00:53Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Anticipated Network Surveillance -- An extrapolated study to predict
cyber-attacks using Machine Learning and Data Analytics [0.0]
本稿では、複数のデータパラメータに基づいて、ネットワークにおける今後の攻撃を予測する新しい手法について論じる。
提案するモデルは,データセットの事前処理とトレーニング,続いてテストフェーズで構成される。
テストフェーズの結果に基づいて、攻撃につながる可能性のあるイベントクラスを抽出したベストモデルが選択される。
論文 参考訳(メタデータ) (2023-12-27T01:09:11Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Evaluating BERT-based Pre-training Language Models for Detecting
Misinformation [2.1915057426589746]
オンラインに投稿された全ての情報に対する監督が欠如しているため、オンライン情報の質を制御することは困難である。
誤報の拡散による悪影響を抑えるために, 自動的噂検出技術が必要である。
本研究では、BERTに基づく事前学習言語モデルを用いて、テキストデータをベクトルにエンコードし、ニューラルネットワークモデルを用いてこれらのベクトルを分類し、誤情報を検出する。
論文 参考訳(メタデータ) (2022-03-15T08:54:36Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。