論文の概要: CoVLM: Leveraging Consensus from Vision-Language Models for Semi-supervised Multi-modal Fake News Detection
- arxiv url: http://arxiv.org/abs/2410.04426v1
- Date: Sun, 6 Oct 2024 09:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 07:51:01.035259
- Title: CoVLM: Leveraging Consensus from Vision-Language Models for Semi-supervised Multi-modal Fake News Detection
- Title(参考訳): CoVLM:半教師付きマルチモーダルフェイクニュース検出のためのビジョンランゲージモデルからの合意の活用
- Authors: Devank, Jayateja Kalla, Soma Biswas,
- Abstract要約: 我々は、実画像と偽ニュースを生成する誤ったキャプションをペアリングする、文脈外誤情報検出の現実的かつ挑戦的な課題に対処する。
このタスクの既存のアプローチは、大量のラベル付きデータの可用性を前提としています。
そこで本研究では,ラベル付き画像テキストペアとラベルなし画像ペアの大規模コーパスに限定的にアクセス可能な半教師付きプロトコルを提案する。
- 参考スコア(独自算出の注目度): 15.264492633817774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we address the real-world, challenging task of out-of-context misinformation detection, where a real image is paired with an incorrect caption for creating fake news. Existing approaches for this task assume the availability of large amounts of labeled data, which is often impractical in real-world, since it requires extensive manual intervention and domain expertise. In contrast, since obtaining a large corpus of unlabeled image-text pairs is much easier, here, we propose a semi-supervised protocol, where the model has access to a limited number of labeled image-text pairs and a large corpus of unlabeled pairs. Additionally, the occurrence of fake news being much lesser compared to the real ones, the datasets tend to be highly imbalanced, thus making the task even more challenging. Towards this goal, we propose a novel framework, Consensus from Vision-Language Models (CoVLM), which generates robust pseudo-labels for unlabeled pairs using thresholds derived from the labeled data. This approach can automatically determine the right threshold parameters of the model for selecting the confident pseudo-labels. Experimental results on benchmark datasets across challenging conditions and comparisons with state-of-the-art approaches demonstrate the effectiveness of our framework.
- Abstract(参考訳): 本研究では,実画像と誤った字幕を組み合わせて偽ニュースを生成する,文脈外誤情報検出の現実的課題に対処する。
このタスクの既存のアプローチは、大量のラベル付きデータの可用性を前提としています。
対照的に、ラベル付き画像テキストペアの大規模なコーパスの取得はより容易であるため、本研究では、ラベル付き画像テキストペアの限られた数とラベル付き画像テキストペアの大規模なコーパスにアクセス可能な半教師付きプロトコルを提案する。
さらに、偽ニュースの発生は実際のニュースよりもはるかに少ないため、データセットは極めて不均衡であり、タスクをさらに難しくする傾向にある。
そこで本研究では,ラベル付きデータから得られた閾値を用いて,ラベル付きペアに対してロバストな擬似ラベルを生成する新しいフレームワークであるConsensus from Vision-Language Models (CoVLM)を提案する。
このアプローチは、自信のある擬似ラベルを選択するためのモデルの正しいしきい値を自動的に決定できる。
課題のある条件に対するベンチマークデータセットの実験結果と、最先端のアプローチとの比較により、我々のフレームワークの有効性が示されている。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Pseudo-Labeling by Multi-Policy Viewfinder Network for Image Cropping [19.12798332848528]
我々は,ラベル付きデータとラベルなしデータの両方を併用して,画像収穫モデルのトレーニングデータの規模を拡大する可能性を探る。
このアイデアは、教師モデルによってラベルのないデータのための擬似ラベルを作成し、これらの擬似ラベルで学生モデルを訓練する、擬似ラベル方式で実装することができる。
本稿では,教師からの擬似ラベルの誤りを正すために,多種多様な修正ポリシーを提供する多言語ビューファインダーネットワーク(MPV-Net)を提案する。
論文 参考訳(メタデータ) (2024-07-02T06:02:05Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - A Semi-Paired Approach For Label-to-Image Translation [6.888253564585197]
ラベル・ツー・イメージ翻訳のための半教師付き(半ペア)フレームワークを初めて紹介する。
半ペア画像設定では、小さなペアデータとより大きなペア画像とラベルのセットにアクセスすることができる。
本稿では,この共有ネットワークのためのトレーニングアルゴリズムを提案し,非表現型クラスに着目した希少なクラスサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-23T16:13:43Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Semi-Supervised Learning of Semantic Correspondence with Pseudo-Labels [26.542718087103665]
SemiMatchは意味論的に類似した画像間の密接な対応を確立するための半教師付きソリューションである。
筆者らのフレームワークは,ソースと弱増強ターゲット間のモデル予測自体を用いて擬似ラベルを生成し,擬似ラベルを用いてソースと強増強ターゲット間のモデルの再学習を行う。
実験では、SemiMatchは様々なベンチマーク、特にPF-Willowにおける最先端のパフォーマンスを大きなマージンで達成している。
論文 参考訳(メタデータ) (2022-03-30T03:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。