論文の概要: MPCI-Bench: A Benchmark for Multimodal Pairwise Contextual Integrity Evaluation of Language Model Agents
- arxiv url: http://arxiv.org/abs/2601.08235v2
- Date: Wed, 14 Jan 2026 05:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 14:49:41.19365
- Title: MPCI-Bench: A Benchmark for Multimodal Pairwise Contextual Integrity Evaluation of Language Model Agents
- Title(参考訳): MPCI-Bench: 言語モデルエージェントのマルチモーダルな文脈的統合性評価のためのベンチマーク
- Authors: Shouju Wang, Haopeng Zhang,
- Abstract要約: エージェント設定におけるプライバシ動作を評価するための,最初のマルチモーダルペアワイズコンテキスト統合ベンチマークであるMPCI-Benchを紹介する。
MPCI-Benchは、同じ視覚源から派生した対の正と負のインスタンスから構成される。
エージェントCIに関する今後の研究を促進するために,MPCI-Benchをオープンソースとして公開します。
- 参考スコア(独自算出の注目度): 1.919885803437747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language-model agents evolve from passive chatbots into proactive assistants that handle personal data, evaluating their adherence to social norms becomes increasingly critical, often through the lens of Contextual Integrity (CI). However, existing CI benchmarks are largely text-centric and primarily emphasize negative refusal scenarios, overlooking multimodal privacy risks and the fundamental trade-off between privacy and utility. In this paper, we introduce MPCI-Bench, the first Multimodal Pairwise Contextual Integrity benchmark for evaluating privacy behavior in agentic settings. MPCI-Bench consists of paired positive and negative instances derived from the same visual source and instantiated across three tiers: normative Seed judgments, context-rich Story reasoning, and executable agent action Traces. Data quality is ensured through a Tri-Principle Iterative Refinement pipeline. Evaluations of state-of-the-art multimodal models reveal systematic failures to balance privacy and utility and a pronounced modality leakage gap, where sensitive visual information is leaked more frequently than textual information. We will open-source MPCI-Bench to facilitate future research on agentic CI.
- Abstract(参考訳): 言語モデルエージェントが受動的チャットボットから、個人データを扱う積極的なアシスタントへと進化するにつれて、しばしばコンテキスト統合(CI)のレンズを通して、彼らの社会的規範への固執を評価することがますます重要になる。
しかし、既存のCIベンチマークは主にテキスト中心であり、主に、マルチモーダルなプライバシリスクとプライバシとユーティリティの基本的なトレードオフを見越して、否定的な拒絶シナリオを強調している。
本稿では,エージェント設定におけるプライバシの挙動を評価するための,最初のマルチモーダルペアワイズコンテキスト統合ベンチマークMPCI-Benchを紹介する。
MPCI-Benchは、同じ視覚的ソースから派生し、規範的なシード判断、文脈に富んだストーリー推論、実行可能なエージェントアクショントレースという3つの階層にまたがってインスタンス化される、ペア化された正のインスタンスと負のインスタンスで構成されている。
データ品質はTri-Principle Iterative Refinementパイプラインを通じて保証される。
最先端のマルチモーダルモデルの評価では、プライバシとユーティリティのバランスの取れない体系的な失敗と、機密情報がテキスト情報よりも頻繁にリークされる、明らかなモダリティリークギャップが示されている。
エージェントCIに関する今後の研究を促進するために,MPCI-Benchをオープンソースとして公開します。
関連論文リスト
- MultiPriv: Benchmarking Individual-Level Privacy Reasoning in Vision-Language Models [14.942122955210436]
現代のビジョンランゲージモデル(VLM)は、洗練された推論を示し、プライバシーリスクをエスカレートする。
現在のプライバシーベンチマークは、この新たな脅威に対して構造的に不十分である。
個人レベルのプライバシ推論を体系的に評価するための最初のベンチマークである textbfMultiPriv を提案する。
論文 参考訳(メタデータ) (2025-11-21T04:33:11Z) - Auditing M-LLMs for Privacy Risks: A Synthetic Benchmark and Evaluation Framework [7.493288948235459]
PRISMは、クロスモーダルなプライバシーリスクを評価するために設計された大規模な総合ベンチマークである。
PRISMは、最初のマルチモーダル、多次元、微細な合成データセットである。
PRISM上での6つのM-LLMの推論能力を評価する。
論文 参考訳(メタデータ) (2025-11-05T07:23:21Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications [24.832537917472894]
EVADEは、eコマースにおける回避コンテンツ検出の基礎モデルを評価するために設計された、最初の専門家による、中国のマルチモーダルベンチマークである。
データセットには、2,833の注釈付きテキストサンプルと、6つの要求のある製品カテゴリにまたがる13,961のイメージが含まれている。
論文 参考訳(メタデータ) (2025-05-23T09:18:01Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。