論文の概要: On Evaluating the Adversarial Robustness of Foundation Models for Multimodal Entity Linking
- arxiv url: http://arxiv.org/abs/2508.15481v1
- Date: Thu, 21 Aug 2025 11:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.307933
- Title: On Evaluating the Adversarial Robustness of Foundation Models for Multimodal Entity Linking
- Title(参考訳): マルチモーダルエンティティリンクのための基礎モデルの逆ロバスト性評価について
- Authors: Fang Wang, Yongjie Wang, Zonghao Yang, Minghao Hu, Xiaoying Bai,
- Abstract要約: 敵攻撃シナリオの相違により,メインストリームMELモデルのロバスト性を総合的に評価する。
5つのデータセットの実験では、LCM-RetLinkはMELの精度を0.4%-35.7%改善している。
この研究は、MELのロバスト性に関する未調査の側面を強調し、最初のMEL逆例データセットを構築し、リリースする。
- 参考スコア(独自算出の注目度): 11.268639885321884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The explosive growth of multimodal data has driven the rapid development of multimodal entity linking (MEL) models. However, existing studies have not systematically investigated the impact of visual adversarial attacks on MEL models. We conduct the first comprehensive evaluation of the robustness of mainstream MEL models under different adversarial attack scenarios, covering two core tasks: Image-to-Text (I2T) and Image+Text-to-Text (IT2T). Experimental results show that current MEL models generally lack sufficient robustness against visual perturbations. Interestingly, contextual semantic information in input can partially mitigate the impact of adversarial perturbations. Based on this insight, we propose an LLM and Retrieval-Augmented Entity Linking (LLM-RetLink), which significantly improves the model's anti-interference ability through a two-stage process: first, extracting initial entity descriptions using large vision models (LVMs), and then dynamically generating candidate descriptive sentences via web-based retrieval. Experiments on five datasets demonstrate that LLM-RetLink improves the accuracy of MEL by 0.4%-35.7%, especially showing significant advantages under adversarial conditions. This research highlights a previously unexplored facet of MEL robustness, constructs and releases the first MEL adversarial example dataset, and sets the stage for future work aimed at strengthening the resilience of multimodal systems in adversarial environments.
- Abstract(参考訳): マルチモーダルデータの爆発的成長により、マルチモーダル・エンティティ・リンク(MEL)モデルが急速に発達した。
しかし、既存の研究では、MELモデルに対する視覚的敵対攻撃の影響を体系的に研究していない。
I2T(Image-to-Text)と画像+Text-to-Text(Image+Text-to-Text)の2つのコアタスクをカバーする。
実験結果から、現在のMELモデルには視覚摂動に対する十分な堅牢性が欠如していることが示唆された。
興味深いことに、入力中の文脈意味情報は、対向的摂動の影響を部分的に緩和することができる。
この知見に基づいて,LLM と Retrieval-Augmented Entity Linking (LLM-RetLink) を提案する。これは2段階のプロセスを通じてモデルの干渉防止能力を大幅に向上させるもので,まず,大きな視覚モデル(LVM)を用いて初期エンティティ記述を抽出し,次に Web ベースの検索により候補記述文を動的に生成する。
5つのデータセットの実験により、LSM-RetLinkはMELの精度を0.4%-35.7%改善し、特に敵対的な条件下では大きな利点があることが示された。
本研究は、MELのロバスト性に関する未調査の側面を強調し、最初のMEL逆数例データセットを構築し、リリースし、対数環境におけるマルチモーダルシステムのレジリエンスを強化することを目的とした将来の研究のステージを設定する。
関連論文リスト
- Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:49:53Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - MrM: Black-Box Membership Inference Attacks against Multimodal RAG Systems [31.53306157650065]
マルチモーダル検索拡張生成(RAG)システムは、クロスモーダル知識を統合することで、大きな視覚言語モデルを強化する。
これらの知識データベースには、プライバシー保護を必要とする機密情報が含まれている可能性がある。
MrMはマルチモーダルRAGシステムを対象とした最初のブラックボックスMIAフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T03:48:50Z) - mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation [5.647319807077936]
LVLM(Large Vision-Language Models)は、視覚的質問応答、視覚的接地、複雑な推論といったマルチモーダルなタスクにおいて顕著な進歩を遂げている。
Retrieval-Augmented Generation (RAG)は、LVLMが検索機構を介して大規模知識データベースにアクセスできるようにすることにより、これらの課題を軽減するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-29T23:32:03Z) - Towards Zero-Shot Differential Morphing Attack Detection with Multimodal Large Language Models [8.128063939332408]
本研究は, 差動モーフィング攻撃検出(D-MAD)における多モード大言語モデル (LLM) の導入を紹介する。
我々の知る限りでは、実バイオメトリックデータを用いてマルチモーダルLLMをD-MADに採用するのはこれが初めてである。
CoT(Chain-of-Thought)ベースのプロンプトを設計し、回答の失敗率を低減し、意思決定の背後にある推論を強化する。
論文 参考訳(メタデータ) (2025-05-21T10:05:19Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。