論文の概要: Construction of Large-Scale Misinformation Labeled Datasets from Social
Media Discourse using Label Refinement
- arxiv url: http://arxiv.org/abs/2202.12413v1
- Date: Thu, 24 Feb 2022 23:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 14:35:06.070364
- Title: Construction of Large-Scale Misinformation Labeled Datasets from Social
Media Discourse using Label Refinement
- Title(参考訳): ラベルリファインメントを用いたソーシャルメディア談話からの大規模誤報ラベル付きデータセットの構築
- Authors: Karishma Sharma, Emilio Ferrara, Yan Liu
- Abstract要約: 我々は、ソーシャルメディア投稿の弱いラベルとして、ニュースソースの信頼性ラベルを活用することを提案する。
このフレームワークは、投稿の社会的コンテキストを、関連ユーザのコミュニティの言葉で、不正確なラベルを提示する。
このアプローチは、新型コロナウイルスワクチンに関する大規模な誤情報データセットを提供するために実証されている。
- 参考スコア(独自算出の注目度): 16.754951815543006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Malicious accounts spreading misinformation has led to widespread false and
misleading narratives in recent times, especially during the COVID-19 pandemic,
and social media platforms struggle to eliminate these contents rapidly. This
is because adapting to new domains requires human intensive fact-checking that
is slow and difficult to scale. To address this challenge, we propose to
leverage news-source credibility labels as weak labels for social media posts
and propose model-guided refinement of labels to construct large-scale, diverse
misinformation labeled datasets in new domains. The weak labels can be
inaccurate at the article or social media post level where the stance of the
user does not align with the news source or article credibility. We propose a
framework to use a detection model self-trained on the initial weak labels with
uncertainty sampling based on entropy in predictions of the model to identify
potentially inaccurate labels and correct for them using self-supervision or
relabeling. The framework will incorporate social context of the post in terms
of the community of its associated user for surfacing inaccurate labels towards
building a large-scale dataset with minimum human effort. To provide labeled
datasets with distinction of misleading narratives where information might be
missing significant context or has inaccurate ancillary details, the proposed
framework will use the few labeled samples as class prototypes to separate high
confidence samples into false, unproven, mixture, mostly false, mostly true,
true, and debunk information. The approach is demonstrated for providing a
large-scale misinformation dataset on COVID-19 vaccines.
- Abstract(参考訳): 誤報を広める悪意のあるアカウントは、特に新型コロナウイルス(COVID-19)のパンデミックの間、近年、嘘や誤解を招く物語を拡散させ、ソーシャルメディアプラットフォームはこれらのコンテンツを急速に排除しようと苦労している。
これは、新しいドメインへの適応には人間の集中的なファクトチェックが必要であり、スケールが遅くて難しいためである。
この課題に対処するために,ニュースソースの信頼度ラベルをソーシャルメディア投稿の弱いラベルとして活用し,新しいドメインにおける大規模で多様な誤情報ラベル付きデータセットを構築するために,ラベルのモデルガイドによる改良を提案する。
弱いラベルは、利用者のスタンスがニュースソースや記事の信頼性と一致しない記事やソーシャルメディアの投稿レベルで不正確である。
モデル予測におけるエントロピーに基づく不確実性サンプリングを用いて,初期弱ラベルを自己学習した検出モデルを用いて,不正確なラベルを識別し,自己スーパービジョンやrelabelingを用いて修正する手法を提案する。
このフレームワークは、最小限の人間の努力で大規模なデータセットを構築するための不正確なラベルを提示するために、関連するユーザーのコミュニティの観点から、投稿の社会的コンテキストを組み込む。
情報が重要な文脈や不正確な詳細を欠いているような誤解を招くような物語を区別するラベル付きデータセットを提供するため、提案されたフレームワークでは、少数のラベル付きサンプルをクラスプロトタイプとして使用して、信頼性の高いサンプルをfalse、unproven、mixed、most false、most true、true、debunkに分離する。
このアプローチは、covid-19ワクチンに関する大規模な誤った情報データセットを提供することで実証されている。
関連論文リスト
- Suicide Risk Assessment on Social Media with Semi-Supervised Learning [20.193174124912282]
ラベル付きおよびラベルなしデータを活用する半教師付きフレームワークを提案する。
擬似ラベル生成の複数の試行において一括して予測されなかった擬似ラベルデータのサブセットを手動で検証する。
本研究は,一部検証済み擬似ラベル付きデータに加えて,地味ラベル付きデータを活用することで,ソーシャルメディア投稿から自殺リスクを評価する能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-11-18T02:43:05Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - ScarceNet: Animal Pose Estimation with Scarce Annotations [74.48263583706712]
ScarceNetは、ラベルのない画像のための人工ラベルを生成するための擬似ラベルベースのアプローチである。
我々は、既存の半教師付きアプローチを大きなマージンで上回る、挑戦的なAP-10Kデータセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-03-27T09:15:53Z) - Losses over Labels: Weakly Supervised Learning via Direct Loss
Construction [71.11337906077483]
プログラム可能な弱い監視は、機械学習のパラダイムとして成長している。
ラベルの中間ステップを経由することなく,直接損失を発生させるため,ラベルのロバスト・オーバー・ラベル(Losses over Labels, LoL)を提案する。
いくつかのベンチマークテキストおよび画像分類タスクにおいて、LoLは既存の弱い監督手法を改善していることを示す。
論文 参考訳(メタデータ) (2022-12-13T22:29:14Z) - Improved Adaptive Algorithm for Scalable Active Learning with Weak
Labeler [89.27610526884496]
Weak Labeler Active Cover (WL-AC)は、要求される精度を維持しながら、クエリの複雑さを低減するために、低品質の弱いラベルを堅牢に活用することができる。
受動学習と同一の精度を維持しつつラベル数を著しく削減し, 劣化したMNISTデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2022-11-04T02:52:54Z) - Label Noise-Resistant Mean Teaching for Weakly Supervised Fake News
Detection [93.6222609806278]
本稿では,弱い教師付き偽ニュース検出のためのラベル雑音耐性平均教育手法 (LNMT) を提案する。
LNMTは、未ラベルのニュースとユーザのフィードバックコメントを活用して、トレーニングデータの量を増やす。
LNMTはラベル伝搬とラベル信頼性推定を備えた平均教師フレームワークを確立する。
論文 参考訳(メタデータ) (2022-06-10T16:01:58Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Labeled Data Generation with Inexact Supervision [33.110134862501546]
本稿では,ラベル付きデータ生成における不正確な管理を伴う新しい問題について検討する。
そこで本研究では,高品質なラベル付きデータをターゲット分類タスクのために合成する,ADDESと呼ばれる新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T22:22:26Z) - OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking [2.1930130356902207]
クラウドソーシングは、分散ラベルコレクションを実行するための、ポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
我々は、クラウドソースアノテーションを信頼できるラベルに統合するための、モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムであるOpinionRankを提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合,OpinionRankが好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-02-11T08:12:44Z) - Limitations of weak labels for embedding and tagging [0.0]
環境音響分析における多くのデータセットやアプローチは、弱いラベル付きデータを用いており、強いラベルで全てのデータサンプルに注釈をつけるのは高すぎるため、弱いラベルが用いられる。
本稿では,弱いラベルを含む教師付き学習問題を定式化し,他の課題とは対照的に,強いラベルと弱いラベルの違いに着目したデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-05T08:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。