Fugu-MT 論文翻訳(概要): MVTamperBench: Evaluating Robustness of Vision-Language Models

論文の概要: MVTamperBench: Evaluating Robustness of Vision-Language Models

arxiv url: http://arxiv.org/abs/2412.19794v4
Date: Fri, 17 Jan 2025 18:18:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 16:02:51.200216
Title: MVTamperBench: Evaluating Robustness of Vision-Language Models
Title（参考訳）: MVTamperBench:視覚言語モデルのロバスト性評価
Authors: Amit Agarwal, Srikant Panda, Angeline Charles, Bhargava Kumar, Hitesh Patel, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae,
Abstract要約: MVTamperBenchは,マルチモーダル大言語モデルを体系的に評価するベンチマークである。 MVTamperBenchは空間的および時間的コヒーレンスにおける操作を検出するモデルに挑戦する。安全クリティカルなアプリケーションでタンパー耐性MLLMを開発するための新しいベンチマークを設定している。
参考スコア（独自算出の注目度）: 5.276304993347102
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have driven major advances in video understanding, yet their vulnerability to adversarial tampering and manipulations remains underexplored. To address this gap, we introduce MVTamperBench, a benchmark that systematically evaluates MLLM robustness against five prevalent tampering techniques: rotation, masking, substitution, repetition, and dropping. Built from 3.4K original videos-expanded to over 17K tampered clips spanning 19 video tasks. MVTamperBench challenges models to detect manipulations in spatial and temporal coherence. We evaluate 45 recent MLLMs from 15+ model families, revealing substantial variability in resilience across tampering types and showing that larger parameter counts do not necessarily guarantee robustness. MVTamperBench sets a new benchmark for developing tamper-resilient MLLM in safety-critical applications, including detecting clickbait, preventing harmful content distribution, and enforcing policies on media platforms. We release all code and data to foster open research in trustworthy video understanding. Code: https://amitbcp.github.io/MVTamperBench/ Data: https://huggingface.co/datasets/Srikant86/MVTamperBench
Abstract（参考訳）: MLLM (Multimodal Large Language Models) はビデオ理解に大きな進歩をもたらしたが、敵のタンパリングや操作に対する脆弱性は未解明のままである。このギャップに対処するために、MVTamperBenchは、回転、マスキング、置換、繰り返し、減少の5つの一般的なテーパー技術に対して、MLLMの堅牢性を体系的に評価するベンチマークである。オリジナルの3.4Kビデオから、19の動画タスクにまたがる17Kビデオに拡張された。 MVTamperBenchは空間的および時間的コヒーレンスにおける操作を検出するモデルに挑戦する。我々は15以上のモデルファミリーの最近のMLLMを45種類評価し、タグ付け型間でのレジリエンスの相当な変動を明らかにし、より大きなパラメータ数が必ずしもロバスト性を保証するとは限らないことを示した。 MVTamperBenchは、クリックベイトの検出、有害なコンテンツ配信の防止、メディアプラットフォーム上のポリシー強化など、安全クリティカルなアプリケーションにおいて、タンパー耐性のMLLMを開発するための新しいベンチマークを設定している。信頼に値するビデオ理解のオープンな研究を促進するために、すべてのコードとデータを公開します。コード: https://amitbcp.github.io/MVTamperBench/ Data: https://huggingface.co/datasets/Srikant86/MVTamperBench

関連論文リスト

Watch, Listen, Understand, Mislead: Tri-modal Adversarial Attacks on Short Videos for Content Appropriateness Evaluation [1.0012740151280692]
本稿では,マルチモーダル大言語モデル(MLLM)の3次元安全性を評価するためのフレームワークを提案する。本稿では,ヒト誘導型合成対向攻撃を用いたショートビデオ・マルチモーダル対向データセットを提案する。最先端MLLMの大規模な実験により、攻撃成功率(ASR)の高い重大な脆弱性が明らかになった。
論文参考訳（メタデータ） (2025-07-16T07:02:15Z)
CyberV: Cybernetics for Test-time Scaling in Video Understanding [46.693118184157626]
現在のMLLM(Multimodal Large Language Models)は、長いビデオや複雑なビデオを理解するのに苦労する可能性がある。本稿では,ビデオMLLMを適応システムとして再設計する,サイバネティックな原理にインスパイアされた新しいフレームワークを提案する。当社のアプローチであるCyberVでは,MLLM推論システム,センサ,コントローラで構成されるサイバネティックループを導入している。
論文参考訳（メタデータ） (2025-06-09T17:45:18Z)
Vid-SME: Membership Inference Attacks against Large Video Understanding Models [56.31088116526825]
ビデオ理解モデル(VULLM)で使用されるビデオデータに適した,最初の会員推論手法であるVid-SMEを紹介する。自然なビデオフレームと時間的に反転したビデオフレームのSME差を利用して、Vid-SMEは、与えられたビデオがモデルのトレーニングセットの一部であるかどうかを判断するロバストなメンバーシップスコアを導出する。様々な自己学習およびオープンソースVULLMの実験は、Vid-SMEの強力な有効性を示している。
論文参考訳（メタデータ） (2025-05-29T13:17:25Z)
Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs [51.90597846977058]
Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
論文参考訳（メタデータ） (2025-05-17T05:06:38Z)
Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-12-23T13:05:51Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping [45.584695790489484]
LVLM(Large Vision-Language Models)は、マルチモーダルタスクにまたがる顕著な機能を示す。 VLB(Vision-Language Bootstrapping)と呼ばれる動的マルチモーダル評価プロトコルを導入する。 VLBは、データ汚染の低減と柔軟性のある複雑さを伴うLVLMの堅牢で包括的な評価を提供する。
論文参考訳（メタデータ） (2024-10-11T10:33:51Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文参考訳（メタデータ） (2024-06-13T17:59:44Z)
Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文参考訳（メタデータ） (2024-05-27T17:59:39Z)
GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval [60.70901959953688]
本稿では,PRVRのための不確実性認識フレームワークであるGMMFormer v2を提案する。クリップモデリングでは,新しい時間的統合モジュールを用いた強力なベースラインGMMFormerを改良する。そこで本研究では,テキスト・クリップの微調整に最適なマッチング損失を提案する。
論文参考訳（メタデータ） (2024-05-22T16:55:31Z)
FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文参考訳（メタデータ） (2024-03-20T11:05:07Z)
MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-11-29T12:49:45Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)
ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language Models [28.305932427801682]
ViLMA(ビデオ言語モデルアセスメント)は,VidLMのきめ細かい機能を評価するタスク非依存のベンチマークである。 ViLMAは、コントロールされた評価スイートを提供し、これらのモデルの真の可能性と、人間レベルの理解と比較してパフォーマンスのギャップを浮き彫りにしている。静止画像を用いた視覚言語モデルに比べ,現在のVidLMの接地能力は良くないことを示す。
論文参考訳（メタデータ） (2023-11-13T02:13:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。