論文の概要: CLASH: A Benchmark for Cross-Modal Contradiction Detection
- arxiv url: http://arxiv.org/abs/2511.19199v1
- Date: Mon, 24 Nov 2025 15:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.270502
- Title: CLASH: A Benchmark for Cross-Modal Contradiction Detection
- Title(参考訳): CLASH: クロスモーダルコントラクション検出のためのベンチマーク
- Authors: Teodora Popordanoska, Jiameng Li, Matthew B. Blaschko,
- Abstract要約: CLASHはマルチモーダル矛盾検出のための新しいベンチマークである。
COCOイメージは、制御対象レベルの矛盾や属性レベルの矛盾を含む矛盾したキャプションと組み合わせられる。
- 参考スコア(独自算出の注目度): 15.134491772506196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contradictory multimodal inputs are common in real-world settings, yet existing benchmarks typically assume input consistency and fail to evaluate cross-modal contradiction detection - a fundamental capability for preventing hallucinations and ensuring reliability. We introduce CLASH, a novel benchmark for multimodal contradiction detection, featuring COCO images paired with contradictory captions containing controlled object-level or attribute-level contradictions. The samples include targeted questions evaluated in both multiple-choice and open-ended formats. The benchmark provides an extensive fine-tuning set filtered through automated quality checks, alongside a smaller human-verified diagnostic set. Our analysis of state-of-the-art models reveals substantial limitations in recognizing cross-modal conflicts, exposing systematic modality biases and category-specific weaknesses. Furthermore, we empirically demonstrate that targeted fine-tuning on CLASH substantially enhances conflict detection capabilities.
- Abstract(参考訳): 対照的なマルチモーダル入力は実世界の環境では一般的であるが、既存のベンチマークでは入力一貫性を前提としており、幻覚を予防し信頼性を確保するための基本的な能力であるクロスモーダルの矛盾検出を評価できない。
制御対象や属性レベルの矛盾を含む矛盾キャプションと組み合わせたCOCO画像を特徴付けるマルチモーダル矛盾検出のための新しいベンチマークであるCLASHを紹介する。
サンプルには、複数選択とオープンエンドの両方で評価された対象の質問が含まれている。
このベンチマークは、人間の検証されたより小さな診断セットとともに、自動品質チェックを通じてフィルタリングされた広範囲な微調整セットを提供する。
我々の最先端モデルの解析では、クロスモーダルな対立を認識し、体系的なモダリティバイアスとカテゴリー固有の弱点を明らかにする上で、かなりの制限が示される。
さらに,CLASHの微調整を目標とし,コンフリクト検出能力を大幅に向上させることを実証的に実証した。
関連論文リスト
- LegalWiz: A Multi-Agent Generation Framework for Contradiction Detection in Legal Documents [0.10260880679794955]
本稿では,法的領域に対するマルチエージェントの矛盾対応ベンチマークフレームワークを提案する。
合成法スタイルの文書を生成し、6種類の構造的矛盾を注入し、自己と対の矛盾をモデル化する。
このベンチマークは、法的RAGパイプラインにおける矛盾認識評価のための最初の構造化されたリソースの1つを提供する。
論文 参考訳(メタデータ) (2025-10-03T18:24:27Z) - Unified Unsupervised Anomaly Detection via Matching Cost Filtering [113.43366521994396]
教師なし異常検出(UAD)は、通常のトレーニングデータのみを用いて画像レベルの異常と画素レベルの異常を識別することを目的としている。
UADモデルの異常コスト量を補正するための汎用的なポストホック精錬フレームワークであるUnified Cost Filtering (UCF) を提案する。
論文 参考訳(メタデータ) (2025-10-03T03:28:18Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - CAD: A General Multimodal Framework for Video Deepfake Detection via Cross-Modal Alignment and Distillation [24.952907733127223]
クロスモーダルアライメント・蒸留(CAD)を用いたビデオディープフェイク検出のための一般的なフレームワークを提案する。
1)高レベルのセマンティックシンセシスにおける矛盾を識別するクロスモーダルアライメント(例:リップ音声ミスマッチ)、2)モダリティ特異的な法医学的痕跡(例:合成音声のスペクトル歪み)を保存しながらミスマッチを緩和するクロスモーダル蒸留(例:合成音声のスペクトル歪み)である。
論文 参考訳(メタデータ) (2025-05-21T08:11:07Z) - Verify when Uncertain: Beyond Self-Consistency in Black Box Hallucination Detection [25.176984317213858]
大型言語モデル(LLM)は幻覚に悩まされ、センシティブなアプリケーションにおける信頼性を損なう。
本稿では,検証モデルを一部のケースに対してのみ呼び出す,予算に優しい2段階検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-20T21:06:08Z) - Addressing Key Challenges of Adversarial Attacks and Defenses in the Tabular Domain: A Methodological Framework for Coherence and Consistency [25.830427564563422]
CSAD(Class-Specific Anomaly Detection)は,新しい異常検出手法である。
CSADは, 広い良性分布ではなく, 予測されたクラス分布に対して, 対数サンプルを評価する。
本評価では, 異常検出率とSHAPに基づく評価を併用し, 対向検体品質のより包括的測定を行う。
論文 参考訳(メタデータ) (2024-12-10T09:17:09Z) - Evidential Deep Partial Multi-View Classification With Discount Fusion [24.139495744683128]
Evidential Deep partial Multi-View Classification (EDP-MVC) と呼ばれる新しいフレームワークを提案する。
欠落したビューに対処するためにK-means命令を使用し、マルチビューデータの完全なセットを作成します。
この暗示されたデータ内の潜在的な衝突や不確実性は、下流の推論の信頼性に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-08-23T14:50:49Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。