論文の概要: TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection
- arxiv url: http://arxiv.org/abs/2509.04448v1
- Date: Thu, 04 Sep 2025 17:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.256538
- Title: TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection
- Title(参考訳): TRUST-VL:汎用マルチモーダル誤情報検出のための説明可能なニュースアシスタント
- Authors: Zehong Yan, Peng Qi, Wynne Hsu, Mong Li Lee,
- Abstract要約: マルチモーダルな誤報は、生成的AIによって増幅される社会的脅威を増大させる。
様々な歪みタイプが共通の推論能力を共有し、タスク固有のスキルも必要としています。
本稿では,汎用マルチモーダル誤情報検出のための統一的で説明可能な視覚言語モデルであるTRUST-VLを紹介する。
- 参考スコア(独自算出の注目度): 23.952112817046668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal misinformation, encompassing textual, visual, and cross-modal distortions, poses an increasing societal threat that is amplified by generative AI. Existing methods typically focus on a single type of distortion and struggle to generalize to unseen scenarios. In this work, we observe that different distortion types share common reasoning capabilities while also requiring task-specific skills. We hypothesize that joint training across distortion types facilitates knowledge sharing and enhances the model's ability to generalize. To this end, we introduce TRUST-VL, a unified and explainable vision-language model for general multimodal misinformation detection. TRUST-VL incorporates a novel Question-Aware Visual Amplifier module, designed to extract task-specific visual features. To support training, we also construct TRUST-Instruct, a large-scale instruction dataset containing 198K samples featuring structured reasoning chains aligned with human fact-checking workflows. Extensive experiments on both in-domain and zero-shot benchmarks demonstrate that TRUST-VL achieves state-of-the-art performance, while also offering strong generalization and interpretability.
- Abstract(参考訳): テキスト、視覚的、横断的な歪みを含むマルチモーダルな誤報は、生成的AIによって増幅される社会的脅威を増大させる。
既存の手法は通常、単一のタイプの歪みに焦点を当て、目に見えないシナリオに一般化するのに苦労する。
本研究では,様々な歪みタイプが共通推論能力を共有しながら,タスク固有のスキルを必要とすることを観察する。
我々は,歪み型間の共同学習が知識共有を促進し,モデルの一般化能力を高めることを仮定する。
この目的のために、汎用マルチモーダル誤情報検出のための統一的で説明可能な視覚言語モデルであるTRUST-VLを導入する。
TRUST-VLは、タスク固有の視覚的特徴を抽出するために設計された、新しい質問対応視覚増幅モジュールを組み込んでいる。
トレーニングを支援するため,人間のファクトチェックワークフローに整合した構造的推論チェーンを備えた198Kサンプルを含む大規模インストラクションデータセットであるTRUST-Instructを構築した。
ドメイン内およびゼロショットベンチマークの広範な実験は、TRUST-VLが最先端のパフォーマンスを達成し、強力な一般化と解釈性を提供することを示した。
関連論文リスト
- VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection [5.66050466694651]
本稿では,既存の異常検知器にVLエンコーダを組み込み,セマンティック・ワイドなVL事前学習を有効活用し,外乱認識を改善することを提案する。
また,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。
得られたVL4ADモデルは、広く使用されているベンチマークデータセット上での競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-25T20:12:10Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A survey on knowledge-enhanced multimodal learning [1.8591405259852054]
マルチモーダル学習は、単一の関節表現に様々なモダリティを組み合わせることを目的とした、関心の高まりの分野である。
特に視覚言語学(VL)の分野では、画像やテキストを含む様々なタスクを対象とする複数のモデルやテクニックが開発されている。
VLモデルはトランスフォーマーの概念を拡張し、両方のモダリティが互いに学習できるようにし、前例のない性能を達成した。
論文 参考訳(メタデータ) (2022-11-19T14:00:50Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating
Visio-Linguistic Reasoning [25.520406167426135]
本稿では,4つの視覚言語的推論タスクからなる合成データセットであるTraVLRについて述べる。
TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。
我々は、4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送では失敗することを示した。
論文 参考訳(メタデータ) (2021-11-21T07:22:44Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。