論文の概要: VEglue: Testing Visual Entailment Systems via Object-Aligned Joint
Erasing
- arxiv url: http://arxiv.org/abs/2403.02581v1
- Date: Tue, 5 Mar 2024 01:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:27:26.617824
- Title: VEglue: Testing Visual Entailment Systems via Object-Aligned Joint
Erasing
- Title(参考訳): veglue: オブジェクトアラインジョイント消去による視覚インテリメントシステムのテスト
- Authors: Zhiyuan Chang, Mingyang Li, Junjie Wang, Cheng Li, Qing Wang
- Abstract要約: VEシステムテストのためのオブジェクト整合型共同消去手法VEglueを提案する。
2つの公開データセットを含む4つの広く使われているVEシステム上でVEglueを評価する。
- 参考スコア(独自算出の注目度): 14.488700134624667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual entailment (VE) is a multimodal reasoning task consisting of
image-sentence pairs whereby a promise is defined by an image, and a hypothesis
is described by a sentence. The goal is to predict whether the image
semantically entails the sentence. VE systems have been widely adopted in many
downstream tasks. Metamorphic testing is the commonest technique for AI
algorithms, but it poses a significant challenge for VE testing. They either
only consider perturbations on single modality which would result in
ineffective tests due to the destruction of the relationship of image-text
pair, or just conduct shallow perturbations on the inputs which can hardly
detect the decision error made by VE systems. Motivated by the fact that
objects in the image are the fundamental element for reasoning, we propose
VEglue, an object-aligned joint erasing approach for VE systems testing. It
first aligns the object regions in the premise and object descriptions in the
hypothesis to identify linked and un-linked objects. Then, based on the
alignment information, three Metamorphic Relations are designed to jointly
erase the objects of the two modalities. We evaluate VEglue on four widely-used
VE systems involving two public datasets. Results show that VEglue could detect
11,609 issues on average, which is 194%-2,846% more than the baselines. In
addition, VEglue could reach 52.5% Issue Finding Rate (IFR) on average, and
significantly outperform the baselines by 17.1%-38.2%. Furthermore, we leverage
the tests generated by VEglue to retrain the VE systems, which largely improves
model performance (50.8% increase in accuracy) on newly generated tests without
sacrificing the accuracy on the original test set.
- Abstract(参考訳): ビジュアルエンタテメント(VE)は、約束が画像によって定義され、仮説が文によって記述される画像-文対からなるマルチモーダル推論タスクである。
目的は、画像が文を意味的に包含するかどうかを予測することである。
veシステムは多くの下流タスクで広く採用されている。
メタモルフィックテストはAIアルゴリズムで最も一般的なテクニックだが、VEテストには大きな課題がある。
彼らは、画像とテキストのペアの関係が破壊される原因となる単一のモダリティの摂動のみを考慮するか、またはVEシステムによる決定誤差をほとんど検出できない入力に対して浅い摂動を行う。
画像中のオブジェクトが推論の基本的な要素であるという事実から,VEシステムテストのためのオブジェクト整合型共同消去手法VEglueを提案する。
まず、前提内のオブジェクト領域と仮説内のオブジェクト記述をアライメントし、リンクされていないオブジェクトとリンクされていないオブジェクトを識別する。
そして、アライメント情報に基づいて、2つのモードのオブジェクトを共同で消去する3つのメタモルフィック関係を設計する。
2つの公開データセットを含む4つの広く使われているVEシステム上でVEglueを評価する。
その結果、veglueは平均で11,609件の問題を検出できたが、これはベースラインよりも194%-2,846%多い。
さらに、VEglueは平均52.5%の課題発見率(IFR)に達し、ベースラインの17.1%-38.2%を大きく上回った。
さらに,veglue が生成するテストを利用して ve システムを再トレーニングし,本テストセットの精度を犠牲にすることなく,新たに生成されたテストのモデル性能(精度50.8%向上)を大きく改善した。
関連論文リスト
- DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Adversarial Testing for Visual Grounding via Image-Aware Property
Reduction [12.745111000109178]
PEElingは、画像認識特性の低減によるテキスト摂動手法であり、視覚的グラウンドリングモデルの対角テストを行う。
マルチモーダルインパクトスコア(MMI)は21.4%に達し、画像やテキストの最先端のベースラインを8.2%から15.1%上回っている。
論文 参考訳(メタデータ) (2024-03-02T08:03:42Z) - Less is More: Fewer Interpretable Region via Submodular Subset Selection [54.07758302264416]
本稿では,上述の画像帰属問題を部分モジュラ部分選択問題として再モデル化する。
我々は、より正確な小さな解釈領域を発見するために、新しい部分モジュラー関数を構築する。
正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。
論文 参考訳(メタデータ) (2024-02-14T13:30:02Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Diagnosing Human-object Interaction Detectors [42.283857276076596]
本稿では,HOI検出モデルの定量的なブレークダウン解析を行うための診断ツールボックスを提案する。
我々は8つの最先端HOI検出モデルを分析し、今後の研究を促進する貴重な診断洞察を提供する。
論文 参考訳(メタデータ) (2023-08-16T17:39:15Z) - AlignVE: Visual Entailment Recognition Based on Alignment Relations [32.190603887676666]
視覚的エンテーメント(VE)とは、仮説テキストのセマンティクスが所定の前提画像から推測できるかどうかを認識することである。
AlignVEと呼ばれる新しいアーキテクチャは、関係性相互作用法による視覚的包絡問題を解決するために提案されている。
我々のアーキテクチャはSNLI-VEデータセット上で72.45%の精度に達し、同じ設定で以前のコンテントベースモデルよりも優れています。
論文 参考訳(メタデータ) (2022-11-16T07:52:24Z) - Causal Transportability for Visual Recognition [70.13627281087325]
画像とラベルの関連性は、設定間では転送できないため、標準分類器がフェールすることを示す。
次に、すべての共起源を摂食する因果効果が、ドメイン間で不変であることを示す。
これにより、画像分類における因果効果を推定するアルゴリズムを開発する動機付けとなる。
論文 参考訳(メタデータ) (2022-04-26T15:02:11Z) - Egocentric Human-Object Interaction Detection Exploiting Synthetic Data [19.220651860718892]
産業的文脈において,エゴセントリックなヒューマンオブジェクトインタラクション(EHOI)を検出することの問題点を考察する。
EHOI検出に自動的にラベル付けされたFPV画像を生成するためのパイプラインとツールを提案する。
論文 参考訳(メタデータ) (2022-04-14T15:59:15Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - A Systematic Evaluation of Object Detection Networks for Scientific
Plots [17.882932963813985]
PlotQAデータセット上で、様々なSOTAオブジェクト検出ネットワークの精度をトレーニングし比較する。
0.5の標準IOU設定では、ほとんどのネットワークはプロット内の比較的単純な物体を検出する場合、mAPスコアが80%以上である。
しかし、パフォーマンスは0.9のより厳格なIOUで評価されると大幅に低下し、最高のモデルでmAPは35.70%となった。
論文 参考訳(メタデータ) (2020-07-05T05:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。