論文の概要: LADLE-MM: Limited Annotation based Detector with Learned Ensembles for Multimodal Misinformation
- arxiv url: http://arxiv.org/abs/2512.20257v1
- Date: Tue, 23 Dec 2025 11:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.841252
- Title: LADLE-MM: Limited Annotation based Detector with Learned Ensembles for Multimodal Misinformation
- Title(参考訳): LADLE-MM:マルチモーダル誤報のための学習アンサンブル付き限定アノテーションベース検出器
- Authors: Daniele Cardullo, Simone Teglia, Irene Amerini,
- Abstract要約: LADLE-MMはLearred Ensembles for Multimodal missinformationをモデルに用いたマルチモーダル誤報検出装置である。
2つの単項枝と、画像とテキストの表現を強化する第3のマルチモーダル枝で構成されている。
バイナリとマルチラベルの分類タスクにおいて、競合的なパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 8.769506450302154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of easily accessible tools for generating and manipulating multimedia content, realistic synthetic alterations to digital media have become a widespread threat, often involving manipulations across multiple modalities simultaneously. Recently, such techniques have been increasingly employed to distort narratives of important events and to spread misinformation on social media, prompting the development of misinformation detectors. In the context of misinformation conveyed through image-text pairs, several detection methods have been proposed. However, these approaches typically rely on computationally intensive architectures or require large amounts of annotated data. In this work we introduce LADLE-MM: Limited Annotation based Detector with Learned Ensembles for Multimodal Misinformation, a model-soup initialized multimodal misinformation detector designed to operate under a limited annotation setup and constrained training resources. LADLE-MM is composed of two unimodal branches and a third multimodal one that enhances image and text representations with additional multimodal embeddings extracted from BLIP, serving as fixed reference space. Despite using 60.3% fewer trainable parameters than previous state-of-the-art models, LADLE-MM achieves competitive performance on both binary and multi-label classification tasks on the DGM4 benchmark, outperforming existing methods when trained without grounding annotations. Moreover, when evaluated on the VERITE dataset, LADLE-MM outperforms current state-of-the-art approaches that utilize more complex architectures involving Large Vision-Language-Models, demonstrating the effective generalization ability in an open-set setting and strong robustness to unimodal bias.
- Abstract(参考訳): マルチメディアコンテンツを生成・操作するための手軽なツールが登場し、デジタルメディアへのリアルな合成変更は、しばしば複数のモダリティを同時に操作することを含む、広範囲にわたる脅威となっている。
近年, 重要な出来事の物語を歪ませたり, ソーシャルメディアに誤報を広めたりするために, 誤報検出装置の開発が進められている。
画像とテキストのペアを通して伝達される誤報の文脈において、いくつかの検出方法が提案されている。
しかし、これらのアプローチは典型的には計算集約的なアーキテクチャに依存するか、大量の注釈付きデータを必要とする。
本研究は,LADLE-MM: Limited Annotation based Detector with Learned Ensembles for Multimodal Misinformation, モデルソープ初期化マルチモーダル誤報検出システムについて紹介する。
LADLE-MMは2つの単調分岐と、BLIPから抽出された追加のマルチモーダル埋め込みにより画像およびテキスト表現を強化する第3のマルチモーダル分岐で構成され、固定参照空間として機能する。
従来の最先端モデルよりもトレーニング可能なパラメータを60.3%削減したにもかかわらず、LADLE-MMはDGM4ベンチマークのバイナリとマルチラベルの分類タスクにおいて競合性能を達成し、アノテーションを根拠にすることなく既存の手法より優れている。
さらに、VERITEデータセットで評価すると、LADLE-MMは、大規模ビジョン・ランゲージ・モデルを含むより複雑なアーキテクチャを利用する現在の最先端のアプローチよりも優れており、オープンセット設定における効果的な一般化能力を実証し、一助バイアスに対する強い堅牢性を示している。
関連論文リスト
- MMD-Thinker: Adaptive Multi-Dimensional Thinking for Multimodal Misinformation Detection [8.06079393106578]
マルチモーダルな誤報はさまざまなソーシャルメディアに溢れ、AIGC(AIGC)の時代においても進化を続けている。
近年の研究では、汎用多目的大言語モデル(MLLM)を活用して、検出において顕著な結果が得られている。
適応型多次元思考によるマルチモーダル誤情報検出のための2段階フレームワークであるMDD-Thinkerを提案する。
論文 参考訳(メタデータ) (2025-11-17T11:04:30Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。