論文の概要: VLDBench: Vision Language Models Disinformation Detection Benchmark
- arxiv url: http://arxiv.org/abs/2502.11361v2
- Date: Sun, 23 Feb 2025 02:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:48:13.172007
- Title: VLDBench: Vision Language Models Disinformation Detection Benchmark
- Title(参考訳): VLDBench: 視覚言語モデルによる偽情報検出ベンチマーク
- Authors: Shaina Raza, Ashmal Vayani, Aditya Jain, Aravind Narayanan, Vahid Reza Khazaie, Syed Raza Bashir, Elham Dolatabadi, Gias Uddin, Christos Emmanouilidis, Rizwan Qureshi, Mubarak Shah,
- Abstract要約: 本稿では、VLDBenchの視覚言語情報検出ベンチマークについて述べる。
これは、unimodal (textonly) と multimodal (text and image) コンテンツの両方にわたる偽情報を検出するための、最初の包括的なベンチマークである。
VLDBenchは厳格な半自動データキュレーションパイプラインを備えており、22のドメイン専門家がアノテーションに300時間以上の時間を割いている。
- 参考スコア(独自算出の注目度): 37.40909096573706
- License:
- Abstract: The rapid rise of AI-generated content has made detecting disinformation increasingly challenging. In particular, multimodal disinformation, i.e., online posts-articles that contain images and texts with fabricated information are specially designed to deceive. While existing AI safety benchmarks primarily address bias and toxicity, multimodal disinformation detection remains largely underexplored. To address this challenge, we present the Vision-Language Disinformation Detection Benchmark VLDBench, the first comprehensive benchmark for detecting disinformation across both unimodal (text-only) and multimodal (text and image) content, comprising 31,000} news article-image pairs, spanning 13 distinct categories, for robust evaluation. VLDBench features a rigorous semi-automated data curation pipeline, with 22 domain experts dedicating 300 plus hours} to annotation, achieving a strong inter-annotator agreement (Cohen kappa = 0.78). We extensively evaluate state-of-the-art Large Language Models (LLMs) and Vision-Language Models (VLMs), demonstrating that integrating textual and visual cues in multimodal news posts improves disinformation detection accuracy by 5 - 35 % compared to unimodal models. Developed in alignment with AI governance frameworks such as the EU AI Act, NIST guidelines, and the MIT AI Risk Repository 2024, VLDBench is expected to become a benchmark for detecting disinformation in online multi-modal contents. Our code and data will be publicly available.
- Abstract(参考訳): AI生成コンテンツの急速な増加は、偽情報の発見をますます困難にしている。
特に、偽情報を含む画像やテキストを含むオンラインポストアーティクル(英語版)は、特に欺くように設計されている。
既存のAI安全性ベンチマークは、主にバイアスと毒性に対処するが、マルチモーダルな偽情報検出はいまだに未調査である。
この課題に対処するために、VLDBenchは、非モーダル(テキストのみ)とマルチモーダル(テキストと画像)の両方のコンテンツに対して、13の異なるカテゴリにまたがる31,000のニュース記事とイメージのペアからなる、偽情報を検出するための最初の総合的なベンチマークである。
VLDBenchは厳密な半自動データキュレーションパイプラインを備えており、22のドメイン専門家がアノテーションに300時間以上を捧げ、強力なアノテーション間合意(Cohen kappa = 0.78)を達成している。
現状の大規模言語モデル (LLMs) と視覚言語モデル (VLMs) を広範に評価し, マルチモーダルニュース投稿におけるテキストおよび視覚的手がかりの統合は, 非モーダルモデルと比較して, 偽情報検出精度を5~35%向上させることを示した。
EU AI Act、NISTガイドライン、MIT AI Risk Repository 2024などのAIガバナンスフレームワークと連携して開発されたVLDBenchは、オンラインマルチモーダルコンテンツの偽情報を検出するためのベンチマークになる予定である。
コードとデータは公開されます。
関連論文リスト
- MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。
この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。
フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:59:33Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Open-World Human-Object Interaction Detection via Multi-modal Prompts [26.355054079885463]
MP-HOIは多モードのPromptベースの強力なHOI検出器であり、オープンセットの一般化のためのテキスト記述と、説明の曖昧さを扱う視覚的見本の両方を活用するように設計されている。
MP-HOIは一般のHOI検出器として機能し、既存の専門家モデルのHOI語彙を30倍以上上回った。
論文 参考訳(メタデータ) (2024-06-11T13:01:45Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。
この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。
本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-04-15T21:11:55Z) - MARMOT: A Deep Learning Framework for Constructing Multimodal
Representations for Vision-and-Language Tasks [0.0]
本稿では、モーダル変換(MARMOT)を用いた多モーダル表現と呼ばれる新しいヴィジュアル・アンド・ランゲージ・フレームワークを提案する。
MARMOTは、2016年アメリカ合衆国大統領選挙における選挙事件を報告しているツイートのマルチラベル分類において、20のカテゴリの19のアンサンブルテキストのみの分類器を上回っている。
論文 参考訳(メタデータ) (2021-09-23T17:48:48Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。