Fugu-MT 論文翻訳(概要): VLDBench Evaluating Multimodal Disinformation with Regulatory Alignment

論文の概要: VLDBench Evaluating Multimodal Disinformation with Regulatory Alignment

arxiv url: http://arxiv.org/abs/2502.11361v3
Date: Fri, 30 May 2025 17:17:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 15:03:33.944687
Title: VLDBench Evaluating Multimodal Disinformation with Regulatory Alignment
Title（参考訳）: VLDBenchによる調節アライメントによるマルチモーダル情報の評価
Authors: Shaina Raza, Ashmal Vayani, Aditya Jain, Aravind Narayanan, Vahid Reza Khazaie, Syed Raza Bashir, Elham Dolatabadi, Gias Uddin, Christos Emmanouilidis, Rizwan Qureshi, Mubarak Shah,
Abstract要約: VisionLanguage Disinformation Detection Benchmark (VLDBench) を導入する。 VLDBenchは、unimodal (textonly) と multimodal (text + image) の偽情報検出をサポートする最初の大規模リソースである。 13のカテゴリで約62,000のラベル付きテキストイメージペアで構成され、58のニュースメディアからキュレートされている。
参考スコア（独自算出の注目度）: 37.40909096573706
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Detecting disinformation that blends manipulated text and images has become increasingly challenging, as AI tools make synthetic content easy to generate and disseminate. While most existing AI safety benchmarks focus on single modality misinformation (i.e., false content shared without intent to deceive), intentional multimodal disinformation, such as propaganda or conspiracy theories that imitate credible news, remains largely unaddressed. We introduce the Vision-Language Disinformation Detection Benchmark (VLDBench), the first large-scale resource supporting both unimodal (text-only) and multimodal (text + image) disinformation detection. VLDBench comprises approximately 62,000 labeled text-image pairs across 13 categories, curated from 58 news outlets. Using a semi-automated pipeline followed by expert review, 22 domain experts invested over 500 hours to produce high-quality annotations with substantial inter-annotator agreement. Evaluations of state-of-the-art Large Language Models (LLMs) and Vision-Language Models (VLMs) on VLDBench show that incorporating visual cues improves detection accuracy by 5 to 35 percentage points over text-only models. VLDBench provides data and code for evaluation, fine-tuning, and robustness testing to support disinformation analysis. Developed in alignment with AI governance frameworks (e.g., the MIT AI Risk Repository), VLDBench offers a principled foundation for advancing trustworthy disinformation detection in multimodal media. Project: https://vectorinstitute.github.io/VLDBench/ Dataset: https://huggingface.co/datasets/vector-institute/VLDBench Code: https://github.com/VectorInstitute/VLDBench
Abstract（参考訳）: 操作されたテキストと画像が混ざった偽情報の検出は、AIツールによって合成コンテンツの生成と拡散が容易になるため、ますます困難になっている。既存のAI安全ベンチマークは、単一のモダリティの誤報(つまり、欺くことなく共有される偽のコンテンツ)に焦点を当てているが、プロパガンダや陰謀論のような意図的な多モーダルの偽報は、いまだほとんど使われていない。 VLDBench (Vision-Language Disinformation Detection Benchmark) は,テキストのみの) とマルチモーダル(テキスト+画像) の両方をサポートする最初の大規模リソースである。 VLDBenchは、13のカテゴリで約62,000のラベル付きテキストイメージペアで構成され、58のニュースソースからキュレートされている。セミオートマチックなパイプラインと専門家によるレビューによって、22のドメイン専門家が500時間以上の投資を行い、アノテータ間契約で高品質なアノテーションを作成しました。 VLDBenchにおける最先端のLarge Language Models (LLMs) とVision-Language Models (VLMs) の評価は、ビジュアルキューを組み込むことで、テキストのみのモデルよりも5～35ポイントの検出精度が向上することを示している。 VLDBenchは、偽情報分析をサポートするために、評価、微調整、堅牢性テストのためのデータとコードを提供する。 AIガバナンスフレームワーク(例えば、MIT AI Risk Repository)と連携して開発されたVLDBenchは、マルチモーダルメディアにおける信頼できる偽情報検出を促進するための、原則化された基盤を提供する。プロジェクト: https://vectorinstitute.github.io/VLDBench/データセット: https://huggingface.co/datasets/vector-institute/VLDBenchコード: https://github.com/VectorInstitute/VLDBench

関連論文リスト

Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。 BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。 BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文参考訳（メタデータ） (2025-06-28T15:43:06Z)
IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection [24.67072921674199]
説明可能なマルチモーダルAIGC検出のための,新規で統一された大規模データセットであるIVY-FAKEを紹介する。 Ivy Explainable Detector (IVY-XDETECTOR)を提案する。我々の統合視覚言語モデルは、複数の画像およびビデオ検出ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-01T12:20:22Z)
Multimodal Fake News Detection: MFND Dataset and Shallow-Deep Multitask Learning [22.494473679788396]
マルチモーダルニュースには豊富な情報が含まれており、ディープフェイク・モデリング・アタックの影響を受けやすい。最新の画像とテキスト生成手法に対抗するために,新しいマルチモーダルフェイクニュース検出データセット(MFND)を提案する。 MFNDには11の操作されたタイプがあり、高度に認証された偽ニュースを検出し、ローカライズするように設計されている。
論文参考訳（メタデータ） (2025-05-11T00:26:13Z)
A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning [27.350370419751385]
リモートセンシング画像キャプチャー(Remote Sensing Image Captioning、RSIC)は、リモートセンシング画像における特徴やシーンの自然言語記述を自動的に生成することを目的とした、クロスプラットフォームの視野と言語である。非英語記述データセットの不足とモデルに対する多言語能力評価の欠如という2つの重要な課題が続いている。本稿では,68,170のバイリンガルキャプションと組み合わせた13,634枚の画像を含む,3つの確立した英語RSICデータセットを中国語記述で強化した包括的バイリンガルデータセットであるBRSICを紹介し,分析する。
論文参考訳（メタデータ） (2025-03-06T16:31:34Z)
MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-14T11:59:33Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
Open-World Human-Object Interaction Detection via Multi-modal Prompts [26.355054079885463]
MP-HOIは多モードのPromptベースの強力なHOI検出器であり、オープンセットの一般化のためのテキスト記述と、説明の曖昧さを扱う視覚的見本の両方を活用するように設計されている。 MP-HOIは一般のHOI検出器として機能し、既存の専門家モデルのHOI語彙を30倍以上上回った。
論文参考訳（メタデータ） (2024-06-11T13:01:45Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。 DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文参考訳（メタデータ） (2023-09-25T15:05:46Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文参考訳（メタデータ） (2023-04-15T21:11:55Z)
UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。 UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文参考訳（メタデータ） (2023-01-16T08:43:17Z)
Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文参考訳（メタデータ） (2022-11-10T21:44:33Z)
MARMOT: A Deep Learning Framework for Constructing Multimodal Representations for Vision-and-Language Tasks [0.0]
本稿では、モーダル変換(MARMOT)を用いた多モーダル表現と呼ばれる新しいヴィジュアル・アンド・ランゲージ・フレームワークを提案する。 MARMOTは、2016年アメリカ合衆国大統領選挙における選挙事件を報告しているツイートのマルチラベル分類において、20のカテゴリの19のアンサンブルテキストのみの分類器を上回っている。
論文参考訳（メタデータ） (2021-09-23T17:48:48Z)
InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文参考訳（メタデータ） (2020-10-05T20:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。