Fugu-MT 論文翻訳(概要): MPCI-Bench: A Benchmark for Multimodal Pairwise Contextual Integrity Evaluation of Language Model Agents

論文の概要: MPCI-Bench: A Benchmark for Multimodal Pairwise Contextual Integrity Evaluation of Language Model Agents

arxiv url: http://arxiv.org/abs/2601.08235v1
Date: Tue, 13 Jan 2026 05:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-14 18:27:19.071364
Title: MPCI-Bench: A Benchmark for Multimodal Pairwise Contextual Integrity Evaluation of Language Model Agents
Title（参考訳）: MPCI-Bench: 言語モデルエージェントのマルチモーダルな文脈的統合性評価のためのベンチマーク
Authors: Shouju Wang, Haopeng Zhang,
Abstract要約: エージェント設定におけるプライバシ動作を評価するための,最初のマルチモーダルペアワイズコンテキスト統合ベンチマークであるMPCI-Benchを紹介する。 MPCI-Benchは、同じ視覚源から派生した対の正と負のインスタンスから構成される。エージェントCIに関する今後の研究を促進するために,MPCI-Benchをオープンソースとして公開します。
参考スコア（独自算出の注目度）: 1.919885803437747
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As language-model agents evolve from passive chatbots into proactive assistants that handle personal data, evaluating their adherence to social norms becomes increasingly critical, often through the lens of Contextual Integrity (CI). However, existing CI benchmarks are largely text-centric and primarily emphasize negative refusal scenarios, overlooking multimodal privacy risks and the fundamental trade-off between privacy and utility. In this paper, we introduce MPCI-Bench, the first Multimodal Pairwise Contextual Integrity benchmark for evaluating privacy behavior in agentic settings. MPCI-Bench consists of paired positive and negative instances derived from the same visual source and instantiated across three tiers: normative Seed judgments, context-rich Story reasoning, and executable agent action Traces. Data quality is ensured through a Tri-Principle Iterative Refinement pipeline. Evaluations of state-of-the-art multimodal models reveal systematic failures to balance privacy and utility and a pronounced modality leakage gap, where sensitive visual information is leaked more frequently than textual information. We will open-source MPCI-Bench to facilitate future research on agentic CI.
Abstract（参考訳）: 言語モデルエージェントが受動的チャットボットから、個人データを扱う積極的なアシスタントへと進化するにつれて、しばしばコンテキスト統合(CI)のレンズを通して、彼らの社会的規範への固執を評価することがますます重要になる。しかし、既存のCIベンチマークは主にテキスト中心であり、主に、マルチモーダルなプライバシリスクとプライバシとユーティリティの基本的なトレードオフを見越して、否定的な拒絶シナリオを強調している。本稿では,エージェント設定におけるプライバシの挙動を評価するための,最初のマルチモーダルペアワイズコンテキスト統合ベンチマークMPCI-Benchを紹介する。 MPCI-Benchは、同じ視覚的ソースから派生し、規範的なシード判断、文脈に富んだストーリー推論、実行可能なエージェントアクショントレースという3つの階層にまたがってインスタンス化される、ペア化された正のインスタンスと負のインスタンスで構成されている。データ品質はTri-Principle Iterative Refinementパイプラインを通じて保証される。最先端のマルチモーダルモデルの評価では、プライバシとユーティリティのバランスの取れない体系的な失敗と、機密情報がテキスト情報よりも頻繁にリークされる、明らかなモダリティリークギャップが示されている。エージェントCIに関する今後の研究を促進するために,MPCI-Benchをオープンソースとして公開します。

関連論文リスト

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文参考訳（メタデータ） (2026-03-05T18:42:51Z)
Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文参考訳（メタデータ） (2026-02-12T03:10:02Z)
MultiPriv: Benchmarking Individual-Level Privacy Reasoning in Vision-Language Models [14.942122955210436]
現代のビジョンランゲージモデル(VLM)は、洗練された推論を示し、プライバシーリスクをエスカレートする。現在のプライバシーベンチマークは、この新たな脅威に対して構造的に不十分である。個人レベルのプライバシ推論を体系的に評価するための最初のベンチマークである textbfMultiPriv を提案する。
論文参考訳（メタデータ） (2025-11-21T04:33:11Z)
Auditing M-LLMs for Privacy Risks: A Synthetic Benchmark and Evaluation Framework [7.493288948235459]
PRISMは、クロスモーダルなプライバシーリスクを評価するために設計された大規模な総合ベンチマークである。 PRISMは、最初のマルチモーダル、多次元、微細な合成データセットである。 PRISM上での6つのM-LLMの推論能力を評価する。
論文参考訳（メタデータ） (2025-11-05T07:23:21Z)
RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。 RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文参考訳（メタデータ） (2025-10-11T03:06:39Z)
Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional [40.11148315577635]
マルチモーダル大言語モデル(MLLM)を用いた23の視覚的質問応答ベンチマークにおける依存性の定量化のための大規模実験的検討を行った。その結果,視力,質問 (テキスト) およびそれらの相互作用への依存度は,ベンチマーク内とベンチマーク内の両方で大きく異なることがわかった。テキストのみのバイアスを軽減するための多くのベンチマークが、必然的に画像のみの依存関係を増幅していることがわかった。この特徴はモデルのサイズにまたがって持続し、より大規模なモデルはこれらのモダリティ内依存を使い、マルチモーダル推論の欠如を隠蔽する高い性能を達成する。
論文参考訳（メタデータ） (2025-09-27T21:13:29Z)
MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。 MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文参考訳（メタデータ） (2025-08-14T13:46:47Z)
METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文参考訳（メタデータ） (2025-07-22T03:42:51Z)
Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文参考訳（メタデータ） (2025-06-14T04:04:54Z)
EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications [24.832537917472894]
EVADEは、eコマースにおける回避コンテンツ検出の基礎モデルを評価するために設計された、最初の専門家による、中国のマルチモーダルベンチマークである。データセットには、2,833の注釈付きテキストサンプルと、6つの要求のある製品カテゴリにまたがる13,961のイメージが含まれている。
論文参考訳（メタデータ） (2025-05-23T09:18:01Z)
MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。 21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文参考訳（メタデータ） (2024-06-11T08:38:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。