論文の概要: Adversarial Testing for Visual Grounding via Image-Aware Property
Reduction
- arxiv url: http://arxiv.org/abs/2403.01118v1
- Date: Sat, 2 Mar 2024 08:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:06:15.418964
- Title: Adversarial Testing for Visual Grounding via Image-Aware Property
Reduction
- Title(参考訳): 画像認識特性の低減による視覚グラウンドの逆テスト
- Authors: Zhiyuan Chang, Mingyang Li, Junjie Wang, Cheng Li, Boyu Wu, Fanjiang
Xu, Qing Wang
- Abstract要約: PEElingは、画像認識特性の低減によるテキスト摂動手法であり、視覚的グラウンドリングモデルの対角テストを行う。
マルチモーダルインパクトスコア(MMI)は21.4%に達し、画像やテキストの最先端のベースラインを8.2%から15.1%上回っている。
- 参考スコア(独自算出の注目度): 12.745111000109178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the advantages of fusing information from various modalities,
multimodal learning is gaining increasing attention. Being a fundamental task
of multimodal learning, Visual Grounding (VG), aims to locate objects in images
through natural language expressions. Ensuring the quality of VG models
presents significant challenges due to the complex nature of the task. In the
black box scenario, existing adversarial testing techniques often fail to fully
exploit the potential of both modalities of information. They typically apply
perturbations based solely on either the image or text information,
disregarding the crucial correlation between the two modalities, which would
lead to failures in test oracles or an inability to effectively challenge VG
models. To this end, we propose PEELING, a text perturbation approach via
image-aware property reduction for adversarial testing of the VG model. The
core idea is to reduce the property-related information in the original
expression meanwhile ensuring the reduced expression can still uniquely
describe the original object in the image. To achieve this, PEELING first
conducts the object and properties extraction and recombination to generate
candidate property reduction expressions. It then selects the satisfied
expressions that accurately describe the original object while ensuring no
other objects in the image fulfill the expression, through querying the image
with a visual understanding technique. We evaluate PEELING on the
state-of-the-art VG model, i.e. OFA-VG, involving three commonly used datasets.
Results show that the adversarial tests generated by PEELING achieves 21.4% in
MultiModal Impact score (MMI), and outperforms state-of-the-art baselines for
images and texts by 8.2%--15.1%.
- Abstract(参考訳): 様々なモダリティから情報を取り出すことの利点から,マルチモーダル学習が注目されている。
マルチモーダル学習の基本的なタスクであるVisual Grounding (VG)は、自然言語表現による画像中のオブジェクトの発見を目的としている。
VGモデルの品質を保証することは、タスクの複雑な性質のために大きな課題となる。
ブラックボックスのシナリオでは、既存の敵対的テスト技術は情報の両方のモダリティの可能性を十分に活用できないことが多い。
彼らは通常、画像またはテキスト情報のみに基づいて摂動を応用し、2つのモダリティ間の重要な相関を無視し、テストオラクルの失敗や、効果的にvgモデルに挑戦できないことに繋がる。
そこで本研究では,vgモデルの逆テストのための画像認識特性低減によるテキスト摂動手法であるpeeringを提案する。
中心となる考え方は、元の表現におけるプロパティ関連の情報を減らし、縮小した表現が画像中の元のオブジェクトを一意に記述できることを保証することである。
これを実現するために、ピーリングはまずオブジェクトとプロパティの抽出と再結合を行い、候補プロパティの還元式を生成する。
そして、画像内の他のオブジェクトが表現を満たさないよう、視覚理解技術で画像に照会することで、元のオブジェクトを正確に記述した満足した表現を選択する。
我々は3つの一般的なデータセットを含む最先端VGモデル、すなわちOFA-VGを用いてPEElingを評価する。
PEEINGが生成した敵対的テストは、MMI(MultiModal Impact score)の21.4%を達成し、画像やテキストの最先端ベースラインを8.2%から15.1%上回る結果となった。
関連論文リスト
- Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual
Context for Image Captioning [25.728621355173626]
現在の方法の鍵となる制限は、モデルの出力が対象検出器の出力にのみ条件付けられることである。
オブジェクト関係などの欠落情報を表す補助的な入力を追加することを提案する。
我々は,画像キャプションにおける手法の有効性を検証し,各コンポーネントの徹底的な分析と,事前学習したマルチモーダルモデルの重要性を検証し,現状よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-05-09T15:05:24Z) - Contrastive Learning of Visual-Semantic Embeddings [4.7464518249313805]
本稿では,正規化されたクロスエントロピーに基づく2つの損失関数を提案する。
本研究は,画像・テキスト・テキスト・画像検索タスクにおける既存のビジュアル・セマンティックな埋め込み手法と比較する。
論文 参考訳(メタデータ) (2021-10-17T17:28:04Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Cops-Ref: A new Dataset and Task on Compositional Referring Expression
Comprehension [39.40351938417889]
Referring Expression comprehension (REF) は、シーン内の特定のオブジェクトを自然言語で識別することを目的としている。
いくつかの一般的な参照式データセットは、モデルの推論能力を評価するのに理想的なテストベッドを提供していない。
本稿では,2つの特徴を持つ表現理解の文脈における視覚的推論のための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-03-01T04:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。