論文の概要: Omni-Modal Dissonance Benchmark: Systematically Breaking Modality Consensus to Probe Robustness and Calibrated Abstention
- arxiv url: http://arxiv.org/abs/2603.27187v1
- Date: Sat, 28 Mar 2026 08:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.836935
- Title: Omni-Modal Dissonance Benchmark: Systematically Breaking Modality Consensus to Probe Robustness and Calibrated Abstention
- Title(参考訳): Omni-Modal Dissonance ベンチマーク:ロバスト性および校正的留意点の証明に対するモダリティ合意を体系的に破る
- Authors: Zabir Al Nazi, Shubhashis Roy Dipta, Md Rizwan Parvez,
- Abstract要約: OMD-Benchを導入し、すべてのモダリティが最初に一致している。
そして、各モダリティの貢献を分離するために体系的に腐敗した。
ベンチマークは8つの汚職条件で27のアンカーにまたがる4,080のインスタンスで構成されている。
- 参考スコア(独自算出の注目度): 7.218987720005679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing omni-modal benchmarks attempt to measure modality-specific contributions, but their measurements are confounded: naturally co-occurring modalities carry correlated yet unequal information, making it unclear whether results reflect true modality reliance or information asymmetry. We introduce OMD-Bench, where all modalities are initially congruent - each presenting the same anchor, an object or event independently perceivable through video, audio, and text - which we then systematically corrupt to isolate each modality's contribution. We also evaluate calibrated abstention: whether models appropriately refrain from answering when evidence is conflicting. The benchmark comprises 4,080 instances spanning 27 anchors across eight corruption conditions. Evaluating ten omni-modal models under zero-shot and chain-of-thought prompting, we find that models over-abstain when two modalities are corrupted yet under-abstain severely when all three are, while maintaining high confidence (~60-100%) even under full corruption. Chain-of-thought prompting improves abstention alignment with human judgment but amplifies overconfidence rather than mitigating it. OMD-Bench provides a diagnostic benchmark for diagnosing modality reliance, robustness to cross-modal inconsistency, and uncertainty calibration in omni-modal systems.
- Abstract(参考訳): 既存のOmni-Modalベンチマークは、モダリティ固有の貢献度を測ろうとするが、その測定は、自然に共起するモダリティは相関するが不等な情報を持ち、結果が真のモダリティ依存や情報非対称性を反映するかどうかは不明である。
OMD-Benchでは、すべてのモダリティが最初に一致し、それぞれが同じアンカー、オブジェクトまたはイベントを、ビデオ、オーディオ、テキストを通じて独立に知覚し、その後、系統的に、各モダリティの貢献を隔離する。
また, モデルが証拠が矛盾している場合に, 適切な回答を控えるかどうかについても検討した。
ベンチマークは8つの汚職条件で27のアンカーにまたがる4,080のインスタンスで構成されている。
ゼロショットとチェーン・オブ・シンクレットの促進の下で10のオムニモーダルモデルを評価すると、2つのモダリティが3つとも破壊されながら、完全に腐敗しても高い信頼性(約60-100%)を維持しながら、過度に吸収されることが分かる。
チェーン・オブ・シークレットは、人間の判断による禁断の整合性を向上するが、それを緩和するのではなく、過剰な自信を増幅する。
OMD-Benchは、Omni-modalシステムにおけるモダリティ依存、クロスモーダル不整合に対する堅牢性、不確実性キャリブレーションの診断のための診断ベンチマークを提供する。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Adaptive Multimodal Person Recognition: A Robust Framework for Handling Missing Modalities [2.5472580243871623]
本稿では,音声,顔,ジェスチャーのモダリティを統合した3モーダル人物識別フレームワークを提案する。
提案手法はマルチタスク学習を利用して各モータリティを独立に処理し,その後にクロスアテンションとゲート融合機構を付加する。
1、2つのモダリティが利用できない場合でも高い精度を保っていることを示す。
論文 参考訳(メタデータ) (2025-12-16T22:59:24Z) - Benchmarking Corruption Robustness of LVLMs: A Discriminative Benchmark and Robustness Alignment Metric [49.393713730706445]
汚損の堅牢性を評価するための識別サンプルを強調したベンチマークであるBench-Cを紹介する。
本稿では,ロバストネスアライメントスコア(RAS)を提案する。
論文 参考訳(メタデータ) (2025-11-24T12:07:56Z) - XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models [29.42489557439947]
クロスモーダル整合性を測定するための大規模トリモーダルベンチマークであるXModBenchを紹介する。
XModBenchは5つのタスクファミリーにまたがる60,828の多重選択質問で構成されている。
実験によると、最強のモデルであるGemini 2.5 Proでさえ空間的および時間的推論に苦戦している。
論文 参考訳(メタデータ) (2025-10-16T21:10:22Z) - SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。