論文の概要: M-PACE: Mother Child Framework for Multimodal Compliance
- arxiv url: http://arxiv.org/abs/2509.15241v1
- Date: Wed, 17 Sep 2025 16:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.810775
- Title: M-PACE: Mother Child Framework for Multimodal Compliance
- Title(参考訳): M-PACE:マルチモーダルコンプライアンスのための母子フレームワーク
- Authors: Shreyash Verma, Amit Kesari, Vinayak Trivedi, Anupam Purwar, Ratnesh Jamidar,
- Abstract要約: M-PACEは単一のパスで入力にまたがる属性を評価するために設計されたフレームワークである。
代表的なユースケースとして、M-PACEを広告コンプライアンスに適用し、15以上のコンプライアンス関連属性を評価する能力を示す。
解析の結果,最も効率的なモデル(母MLLMが選択した子MLLMとしてGemini 2.0 Flash)はイメージ当たり0.0105であるのに対し,2.5 Proは0.0159であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ensuring that multi-modal content adheres to brand, legal, or platform-specific compliance standards is an increasingly complex challenge across domains. Traditional compliance frameworks typically rely on disjointed, multi-stage pipelines that integrate separate modules for image classification, text extraction, audio transcription, hand-crafted checks, and rule-based merges. This architectural fragmentation increases operational overhead, hampers scalability, and hinders the ability to adapt to dynamic guidelines efficiently. With the emergence of Multimodal Large Language Models (MLLMs), there is growing potential to unify these workflows under a single, general-purpose framework capable of jointly processing visual and textual content. In light of this, we propose Multimodal Parameter Agnostic Compliance Engine (M-PACE), a framework designed for assessing attributes across vision-language inputs in a single pass. As a representative use case, we apply M-PACE to advertisement compliance, demonstrating its ability to evaluate over 15 compliance-related attributes. To support structured evaluation, we introduce a human-annotated benchmark enriched with augmented samples that simulate challenging real-world conditions, including visual obstructions and profanity injection. M-PACE employs a mother-child MLLM setup, demonstrating that a stronger parent MLLM evaluating the outputs of smaller child models can significantly reduce dependence on human reviewers, thereby automating quality control. Our analysis reveals that inference costs reduce by over 31 times, with the most efficient models (Gemini 2.0 Flash as child MLLM selected by mother MLLM) operating at 0.0005 per image, compared to 0.0159 for Gemini 2.5 Pro with comparable accuracy, highlighting the trade-off between cost and output quality achieved in real time by M-PACE in real life deployment over advertising data.
- Abstract(参考訳): マルチモーダルコンテンツがブランド、合法、プラットフォーム固有のコンプライアンス標準に準拠していることを保証することは、ドメイン間でますます複雑な課題である。
従来のコンプライアンスフレームワークは、画像分類、テキスト抽出、音声の書き起こし、手作りのチェック、ルールベースのマージのための別々のモジュールを統合する、分離されたマルチステージパイプラインに依存している。
このアーキテクチャの断片化は、運用上のオーバーヘッドを増大させ、スケーラビリティを損なうとともに、動的ガイドラインに効率的に適応する能力を妨げます。
MLLM(Multimodal Large Language Models)の出現に伴い、視覚的およびテキスト的コンテンツを共同で処理できる単一の汎用フレームワークの下でこれらのワークフローを統合する可能性が高まっている。
そこで本稿では,Multimodal Parameter Agnostic Compliance Engine (M-PACE)を提案する。
代表的なユースケースとして、M-PACEを広告コンプライアンスに適用し、15以上のコンプライアンス関連属性を評価する能力を示す。
構造化評価を支援するために,視覚障害やプロファンニティ注入を含む実世界の課題をシミュレートした,拡張されたサンプルを蓄積した人為的注釈付きベンチマークを導入する。
M-PACEは、母子MLLMセットアップを採用し、より小さな子モデルの出力を評価する強力な親MLLMは、人間のレビュアーへの依存を著しく低減し、品質管理を自動化することを実証している。
分析の結果,最も効率的なモデルであるGemini 2.0 Flash as child MLLMが画像あたり0.0005で動作しているのに対し,Gemini 2.5 Proは0.0159と同等の精度で,M-PACEによるリアルタイムの広告配信におけるコストと出力品質のトレードオフを強調した。
関連論文リスト
- Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - Towards Robust Multimodal Emotion Recognition under Missing Modalities and Distribution Shifts [8.259321830040204]
本稿では,モダリティの欠如とOF-Distribution(OOD)データの両方を同時に扱うための新しいフレームワークを提案する。
CIDerはMSSD(Model-Specific Self-Distillation)モジュールとMACI(Model-Agnostic Causal Inference)モジュールという2つの重要なコンポーネントを統合している。
実験の結果、CIDerはRMFMとOODの両方のシナリオでロバストな性能を示し、パラメータは少なく、最先端の手法に比べて訓練が速い。
論文 参考訳(メタデータ) (2025-06-12T07:58:17Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [31.88022265176855]
Supervised Embedding Alignment (SEA) は、事前トレーニング中により正確な視覚的テキストアライメントを可能にするトークンレベルのアライメント手法である。
包括的分析により,マルチモーダル統合におけるアダプタの役割について重要な知見が得られた。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。