論文の概要: Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation
- arxiv url: http://arxiv.org/abs/2304.10249v1
- Date: Wed, 19 Apr 2023 02:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:31:05.484522
- Title: Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation
- Title(参考訳): テキスト画像コントラストモデルのパワーを利用したオンライン誤情報の自動検出
- Authors: Hao Chen, Peng Zheng, Xin Wang, Shu Hu, Bin Zhu, Jinrong Hu, Xi Wu,
Siwei Lyu
- Abstract要約: 誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
- 参考スコア(独自算出の注目度): 50.46219766161111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As growing usage of social media websites in the recent decades, the amount
of news articles spreading online rapidly, resulting in an unprecedented scale
of potentially fraudulent information. Although a plenty of studies have
applied the supervised machine learning approaches to detect such content, the
lack of gold standard training data has hindered the development. Analysing the
single data format, either fake text description or fake image, is the
mainstream direction for the current research. However, the misinformation in
real-world scenario is commonly formed as a text-image pair where the news
article/news title is described as text content, and usually followed by the
related image. Given the strong ability of learning features without labelled
data, contrastive learning, as a self-learning approach, has emerged and
achieved success on the computer vision. In this paper, our goal is to explore
the constrastive learning in the domain of misinformation identification. We
developed a self-learning model and carried out the comprehensive experiments
on a public data set named COSMOS. Comparing to the baseline classifier, our
model shows the superior performance of non-matched image-text pair detection
(approximately 10%) when the training data is insufficient. In addition, we
observed the stability for contrsative learning and suggested the use of it
offers large reductions in the number of training data, whilst maintaining
comparable classification results.
- Abstract(参考訳): ここ数十年でソーシャルメディアのウェブサイトの利用が増加するにつれて、ニュース記事が急速にオンラインに広まり、前例のない規模の不正な情報を生み出した。
このようなコンテンツを検出するために教師付き機械学習アプローチを適用した研究は数多くあるが、ゴールドスタンダードのトレーニングデータが欠如していることが開発を妨げている。
偽のテキスト記述や偽画像など、単一のデータフォーマットを分析することが、現在の研究の主流の方向である。
しかし、現実のシナリオにおける誤報は、ニュース記事/ニュースタイトルをテキストコンテンツとして記述し、通常は関連画像が続くテキスト画像ペアとして一般的に形成される。
ラベル付きデータなしで特徴を学習する強力な能力を考えると、自己学習アプローチとしての対照的な学習が出現し、コンピュータビジョンで成功している。
本稿では,誤情報識別分野におけるコンストラクティブ学習を探求することを目的とする。
自己学習モデルを開発し,cosmosという公開データセット上で総合的な実験を行った。
ベースライン分類器と比較すると,トレーニングデータが不十分な場合,非マッチング画像テキストペア検出(約10%)の優れた性能を示す。
さらに,学習の安定性を観察し,学習データ量を大幅に削減するとともに,比較した分類結果を維持することを提案した。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Sexism Detection on a Data Diet [14.899608305188002]
モデルのトレーニング中に、インフルエンススコアを利用してデータポイントの重要性を推定する方法を示します。
ドメイン外の3つのデータセット上で異なるプルーニング戦略を用いて、データプルーニングに基づいてトレーニングされたモデル性能を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:39:54Z) - Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Capturing Pertinent Symbolic Features for Enhanced Content-Based
Misinformation Detection [0.0]
誤解を招く内容の検出は、言語的・ドメイン的多様性の極端さから、大きなハードルとなる。
本稿では,この現象を特徴付ける言語特性と,最も一般的な誤情報データセットの表現方法について分析する。
ニューラルネットワークモデルと組み合わせた関連する記号的知識の適切な利用は、誤解を招くコンテンツを検出するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-01-29T16:42:34Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Data Quality in Imitation Learning [15.939363481618738]
ロボット工学のオフライン学習では、インターネットのスケールデータがないだけで、高品質なデータセットが必要なのです。
これは特に、専門家によるデモンストレーションを用いたロボット学習のためのサンプル効率のよいパラダイムである模倣学習(IL)において当てはまる。
本研究では,分散シフトのレンズによる模倣学習のためのデータ品質の形式化に向けた第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-06-04T18:48:32Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Continual Contrastive Self-supervised Learning for Image Classification [10.070132585425938]
自己超越学習法は,大規模にラベル付けされたデータを持たない視覚表現に極めて有意な可能性を示す。
自己教師付き学習の視覚的表現を改善するには、より大きく、より多様なデータが必要である。
本稿では,リハーサル手法を提案することによって,連続的なコントラスト型自己教師型学習を実現するための最初の試みを行う。
論文 参考訳(メタデータ) (2021-07-05T03:53:42Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。