論文の概要: FoodMonitor: Benchmarking MLLMs for Explainable Compliance Analysis
- arxiv url: http://arxiv.org/abs/2605.24503v1
- Date: Sat, 23 May 2026 10:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.143144
- Title: FoodMonitor: Benchmarking MLLMs for Explainable Compliance Analysis
- Title(参考訳): FoodMonitor: 説明可能なコンプライアンス分析のためのMLLMのベンチマーク
- Authors: Ruihao Xu, Xingming Shui, Jingxuan Niu, Yiqin Wang, Jilin Yu, Haoji Zhang, Yansong Tang,
- Abstract要約: FoodMonitorは、商用キッチン監視における説明可能なコンプライアンス分析のベンチマークである。
最高の性能モデルは0.360ドルC_textscore$でしか得られず、空間的局所化と細かいルール理解が主要なボトルネックとして現れる。
- 参考スコア(独自算出の注目度): 29.80090524705393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI-powered compliance monitoring becomes increasingly important in public governance and industrial safety, the ability to provide verifiable evidence and traceable accountability signals is essential. However, existing video anomaly detection datasets focus on event-level binary classification, lacking the rule-driven, explainable analysis required for real-world compliance scenarios. We introduce FoodMonitor, a benchmark for explainable compliance analysis in commercial kitchen surveillance. FoodMonitor comprises 477 video clips with 3,307 violation annotations across a dual-channel design covering both person-level and environment-level violations. Each annotation specifies which rule was violated, what non-compliant behavior occurred, and who committed it with frame-level bounding boxes. We establish a unified evaluation protocol with a two-stage matching mechanism that separately assesses spatial localization and semantic understanding, along with a composite metric ($C_{\text{score}}$) that balances environment and person detection performance. Systematic evaluation of several state-of-the-art multimodal large language models reveals that the best-performing model achieves only 0.360 $C_{\text{score}}$, with spatial localization and fine-grained rule understanding emerging as the primary bottlenecks. Our analysis identifies two distinct failure modes: localization-dominated errors and semantics-dominated errors, providing diagnostic insights for future model development.
- Abstract(参考訳): AIを活用したコンプライアンス監視が、公共のガバナンスと産業の安全においてますます重要になっているため、検証可能な証拠と追跡可能な説明責任信号を提供する能力は不可欠である。
しかし、既存のビデオ異常検出データセットは、現実のコンプライアンスシナリオに必要なルール駆動で説明可能な分析を欠いた、イベントレベルのバイナリ分類に焦点を当てている。
我々は、商用キッチン監視における説明可能なコンプライアンス分析のためのベンチマークであるFoodMonitorを紹介する。
FoodMonitorは、477本のビデオクリップと3,307本の違反アノテーションで構成され、人レベルと環境レベルの違反をカバーしている。
それぞれのアノテーションは、どのルールが違反されたか、どんな非準拠な振る舞いが起こったか、フレームレベルのバウンディングボックスでそれを実行したかを指定する。
環境と人検出性能のバランスをとる複合計量(C_{\text{score}}$)とともに、空間的局所化と意味理解を別々に評価する2段階マッチング機構を備えた統合評価プロトコルを確立する。
複数の最先端マルチモーダル言語モデルの体系的評価により、最高の性能モデルは0.360ドルC_{\text{score}}$でしか得られず、空間的局所化と細かいルール理解が主要なボトルネックとして現れる。
本分析では,局所化に支配されるエラーとセマンティクスに支配されるエラーの2つの異なる障害モードを特定し,将来のモデル開発における診断的洞察を提供する。
関連論文リスト
- Multi-Level Contextual Token Relation Modeling for Machine-Generated Text Detection [105.1403233464793]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調する。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、複雑なモデルベース法よりも実用的であることが多い。
MGT検出のための多レベルコンテキストトークン関係モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-15T15:55:58Z) - Beyond Nodes vs. Edges: A Multi-View Fusion Framework for Provenance-Based Intrusion Detection [6.343815622517112]
PROVfusionは、証明に基づく侵入検知のための多視点異常融合フレームワークである。
軽量な融合スキームを通じて異種異常信号を融合し、投票ベースの統合プロセスを通じて最終的な異常決定を決定する。
広く使用されている9つのベンチマークエンティティデータセットの実験では、PROVfusionは単一ノードとエッジ中心のベースラインよりも高い検出精度と偽陽性率を実現する。
論文 参考訳(メタデータ) (2026-04-16T06:40:50Z) - Out of Context: Reliability in Multimodal Anomaly Detection Requires Contextual Inference [54.774686416991386]
我々は、マルチモーダルな異常検出は、クロスモーダルな文脈推論問題として再編成されるべきであると主張している。
この観点はモデル設計、評価プロトコル、ベンチマーク構築に影響を及ぼす。
論文 参考訳(メタデータ) (2026-04-14T19:32:55Z) - IMPACT: A Dataset for Multi-Granularity Human Procedural Action Understanding in Industrial Assembly [79.737814043505]
IMPACTは、デプロイメント指向の産業手続き的理解のための5ビューのRGB-Dデータセットである。
実際の組み立てと、プロ向けのツールを備えた商業用アングルグラインダーの分解を中心に構築されている。
論文 参考訳(メタデータ) (2026-04-12T02:09:19Z) - K$α$LOS finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks [4.297070083645049]
本稿では,「ローカライゼーションファースト」の原理を一般化した統一メタアルゴリズムであるK$LOSを提案する。
合意を査定する前に空間対応を解消することにより,複雑な分類問題を名目上の信頼性に変換する。
論文 参考訳(メタデータ) (2026-03-28T08:54:05Z) - DecepGPT: Schema-Driven Deception Detection with Multicultural Datasets and Robust Multimodal Learning [64.33887406863899]
マルチモーダル偽装検出は、法医学とセキュリティのための聴覚的手がかりを解析することにより、偽装行動を特定することを目的としている。
既存のベンチマークでは、中間的な推論手段を使わずにバイナリラベルのみを提供する。
構造的キューレベルの記述と推論チェーンを用いた推論データセットを構築した。
1695年のサンプルでは、非実験的偽装検出データセットとしては最大である。
論文 参考訳(メタデータ) (2026-03-25T04:06:36Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - Cascading multi-agent anomaly detection in surveillance systems via vision-language models and embedding-based classification [0.0]
この研究は、補完パラダイムをコヒーレントで解釈可能なアーキテクチャに統一するカスケーディングマルチエージェントフレームワークを導入している。
初期モジュールは再構成ゲートフィルタリングとオブジェクトレベルの評価を行い、高レベルの推論エージェントは、意味的に曖昧な事象を解釈するために選択的に呼び出される。
このフレームワークは、早期出力効率、適応型マルチエージェント推論、説明可能な異常属性を組み合わせることで、従来の検出パイプラインを超えて進歩し、スケーラブルなインテリジェントなビジュアル監視のための再現可能でエネルギー効率の良い基盤を確立する。
論文 参考訳(メタデータ) (2026-01-08T11:31:47Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - AnomalyAID: Reliable Interpretation for Semi-supervised Network Anomaly Detection [8.776201861433133]
AnomalyAIDは、異常検出プロセスを解釈し、解釈結果の信頼性を向上させることを目的としている。
本稿では,グローバル・ローカル・インタプリタを利用した新しい解釈手法を提案する。
両段階のモデル予測を特別な制約に合わせることで,ネットワーク異常検出のための新たな2段階半教師付き学習フレームワークを設計する。
論文 参考訳(メタデータ) (2024-11-18T05:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。