論文の概要: Good Scores, Bad Data: A Metric for Multimodal Coherence
- arxiv url: http://arxiv.org/abs/2603.25924v1
- Date: Thu, 26 Mar 2026 21:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.283124
- Title: Good Scores, Bad Data: A Metric for Multimodal Coherence
- Title(参考訳): 良いスコアと悪いデータ:マルチモーダルコヒーレンスのためのメトリクス
- Authors: Vasundra Srinivasan,
- Abstract要約: 下流モデルに依存しない核融合品質を評価する指標であるMultimodal Coherence Score(MCS)を紹介する。
我々は,DETR,CLIP,VLTを用いて1000個のビジュアルゲノム画像を評価し,再トレーニングなしで150個のCOCO画像を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal AI systems are evaluated by downstream task accuracy, but high accuracy does not mean the underlying data is coherent. A model can score well on Visual Question Answering (VQA) while its inputs contradict each other. We introduce the Multimodal Coherence Score (MCS), a metric that evaluates fusion quality independent of any downstream model. MCS decomposes coherence into four dimensions, identity, spatial, semantic, and decision, with weights learned via Nelder-Mead optimization. We evaluate on 1,000 Visual Genome images using DETR, CLIP, and ViLT, and validate on 150 COCO images with no retraining. Across three fusion architectures, MCS discriminates quality with higher sensitivity than task accuracy alone (Spearman rho = 0.093 vs. 0.071). Perturbation experiments confirm each dimension responds independently to its failure mode with zero cross-talk. MCS is lightweight, requires no human annotation, and tells you not just that something broke, but what broke.
- Abstract(参考訳): マルチモーダルAIシステムは、下流のタスク精度で評価されるが、高い精度は、基礎となるデータがコヒーレントであることを意味するわけではない。
VQA(Visual Question Answering)では、入力が互いに矛盾する一方で、モデルがよくスコアを付けることができる。
下流モデルに依存しない核融合品質を評価する指標であるMultimodal Coherence Score(MCS)を紹介する。
MCSはコヒーレンスをアイデンティティ、空間、意味、決定の4つの次元に分解し、Nelder-Mead最適化を通じてウェイトを学習する。
我々は,DETR,CLIP,VLTを用いて1000個のビジュアルゲノム画像を評価し,再トレーニングなしで150個のCOCO画像を検証した。
3つの融合アーキテクチャ全体で、MCSはタスク精度のみよりも高い感度で品質を識別する(Spearman rho = 0.093 vs. 0.071)。
摂動実験は、各次元が失敗モードに独立に応答し、クロストークはゼロであることを確認した。
MCSは軽量で、人間のアノテーションを必要とせず、何かが壊れただけでなく、何が壊れたかを教えてくれます。
関連論文リスト
- From Global to Granular: Revealing IQA Model Performance via Correlation Surface [83.65597122328133]
我々は, IQA 性能の構造化, きめ細かな解析を行う textbfGranularity-Modulated correlation (GMC) を提案する。
GMCにはtextbfDistribution Regulatorが含まれており、相関関係を規則化し、非均一な品質分布からのバイアスを軽減する。
標準ベンチマークの実験では、GCCはスカラーメトリクスに見えないパフォーマンス特性を示し、IQAモデルを分析、比較、デプロイするためのより情報に富んだ信頼性の高いパラダイムを提供する。
論文 参考訳(メタデータ) (2026-01-29T13:55:26Z) - Consistency-Aware Padding for Incomplete Multi-Modal Alignment Clustering Based on Self-Repellent Greedy Anchor Search [8.500604038628648]
マルチモーダル表現は、実世界のデータサンプルの特徴を記述するのに忠実であり、非常に効果的である。
既存の研究は、マルチビューデータが不均衡かつ不整合であるシナリオにおいて、欠落したデータを埋めることの問題を効果的に解決していない。
自己反発型グリーディアンカーサーチに基づく不完全なマルチモーダルアライメントクラスタリングのための一貫性パディングを提案する。
論文 参考訳(メタデータ) (2025-07-05T06:43:35Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - MedSegMamba: 3D CNN-Mamba Hybrid Architecture for Brain Segmentation [15.514511820130474]
我々は皮質下脳分割のための3DパッチベースのハイブリッドCNN-Mambaモデルを開発した。
モデルの性能をいくつかのベンチマークで検証した。
論文 参考訳(メタデータ) (2024-09-12T02:19:19Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - Comprehensive Graph-conditional Similarity Preserving Network for
Unsupervised Cross-modal Hashing [97.44152794234405]
教師なしクロスモーダルハッシュ(UCMH)は近年ホットトピックとなっている。
本稿では,dgcpn(deep graph-neighbor coherence preservation network)を考案する。
DGCPNは3種類のデータ類似性を利用して、損失を保存する包括的な類似性を管理する。
論文 参考訳(メタデータ) (2020-12-25T07:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。