論文の概要: Multimodal Misinformation Detection by Learning from Synthetic Data with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2409.19656v1
- Date: Sun, 29 Sep 2024 11:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 21:58:59.412475
- Title: Multimodal Misinformation Detection by Learning from Synthetic Data with Multimodal LLMs
- Title(参考訳): マルチモーダルLLMを用いた合成データからの学習によるマルチモーダル誤情報検出
- Authors: Fengzhu Zeng, Wenqian Li, Wei Gao, Yan Pang,
- Abstract要約: 本稿では,2つのモデルに依存しないデータ選択手法を用いて,実世界のマルチモーダル誤情報を検出するための合成データからの学習を提案する。
実世界のファクトチェックデータセット上でのMLLMの性能を向上させる実験を行った。
- 参考スコア(独自算出の注目度): 13.684959490938269
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Detecting multimodal misinformation, especially in the form of image-text pairs, is crucial. Obtaining large-scale, high-quality real-world fact-checking datasets for training detectors is costly, leading researchers to use synthetic datasets generated by AI technologies. However, the generalizability of detectors trained on synthetic data to real-world scenarios remains unclear due to the distribution gap. To address this, we propose learning from synthetic data for detecting real-world multimodal misinformation through two model-agnostic data selection methods that match synthetic and real-world data distributions. Experiments show that our method enhances the performance of a small MLLM (13B) on real-world fact-checking datasets, enabling it to even surpass GPT-4V~\cite{GPT-4V}.
- Abstract(参考訳): マルチモーダルな誤情報の検出,特に画像とテキストのペアによる検出が重要である。
大規模で高品質な実世界のファクトチェックデータセットをトレーニングするには、コストがかかるため、研究者はAI技術によって生成された合成データセットを使用することができる。
しかし、合成データに基づいて訓練された検出器の現実シナリオへの一般化性は、分布ギャップのため不明である。
そこで本研究では,合成データと実世界のデータ分布を一致させる2つのモデルに依存しないデータ選択手法を用いて,実世界のマルチモーダル誤情報を検出するための合成データからの学習を提案する。
GPT-4V~\cite{GPT-4V} を超越して実世界のファクトチェックデータセット上でのMLLM (13B) の性能を向上させる実験を行った。
関連論文リスト
- Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。
複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文 参考訳(メタデータ) (2024-10-28T20:53:49Z) - MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis [35.07663680944459]
ディープラーニング技術は、AMR(Automatic Modulation Recognition)タスクにうまく導入されている。
ディープラーニングの成功はすべて、大規模なデータセットのトレーニングによるものだ。
大量のデータの問題を解決するため、一部の研究者はデータ蒸留法を提唱した。
論文 参考訳(メタデータ) (2024-08-05T14:16:54Z) - Towards Reducing Data Acquisition and Labeling for Defect Detection using Simulated Data [0.04194295877935867]
多くの製造環境では、機械学習やコンピュータビジョンのためのアノテートデータがコストがかかるが、合成データは大幅に低コストで生成される。
したがって、実世界のデータを合成データで置き換えることは、大量のトレーニングデータを必要とする多くの機械学習アプリケーションにとって魅力的である。
アルミニウムホイールのX線スキャンにおける欠陥を検出する際に,そのような領域シフトに対処するためのアプローチについて議論する。
論文 参考訳(メタデータ) (2024-06-27T13:51:53Z) - Improving Object Detector Training on Synthetic Data by Starting With a Strong Baseline Methodology [0.14980193397844666]
本稿では,合成データを用いた学習における事前学習対象検出器の性能向上手法を提案する。
提案手法は,実画像の事前学習から得られた有用な特徴を忘れずに,合成データから有能な情報を抽出することに焦点を当てる。
論文 参考訳(メタデータ) (2024-05-30T08:31:01Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Training on Synthetic Data Beats Real Data in Multimodal Relation
Extraction [8.038421100401132]
本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。
我々は,実マルチモーダルテストデータ上で良好に動作する合成データから,マルチモーダル関係を訓練することを目指している。
完全合成画像で訓練された最良のモデルは、F1の3.76%のマージンで、実際のマルチモーダルデータで訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-05T08:11:34Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without
Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。
提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文 参考訳(メタデータ) (2020-12-15T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。