論文の概要: Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations
- arxiv url: http://arxiv.org/abs/2206.15462v3
- Date: Mon, 12 Jun 2023 17:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 02:49:41.070015
- Title: Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations
- Title(参考訳): 一貫性のグラディエントに基づく説明の強化による視覚的接地の改善
- Authors: Ziyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ordonez
- Abstract要約: 本稿では,地域レベルのアノテーションに整合した勾配に基づく説明を奨励する,視覚言語モデル事前学習におけるマージンに基づく損失を提案する。
我々は,より高速なR-CNNなどのオブジェクト検出器を明示的にトレーニングする領域レベルのアノテーションに依存するモデルに比べて,視覚的グラウンドディング性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 51.13273207740456
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a margin-based loss for vision-language model pretraining that
encourages gradient-based explanations that are consistent with region-level
annotations. We refer to this objective as Attention Mask Consistency (AMC) and
demonstrate that it produces superior visual grounding performance compared to
models that rely instead on region-level annotations for explicitly training an
object detector such as Faster R-CNN. AMC works by encouraging gradient-based
explanation masks that focus their attention scores mostly within annotated
regions of interest for images that contain such annotations. Particularly, a
model trained with AMC on top of standard vision-language modeling objectives
obtains a state-of-the-art accuracy of 86.59% in the Flickr30k visual grounding
benchmark, an absolute improvement of 5.48% when compared to the best previous
model. Our approach also performs exceedingly well on established benchmarks
for referring expression comprehension and offers the added benefit by design
of gradient-based explanations that better align with human annotations.
- Abstract(参考訳): 地域レベルのアノテーションと整合した勾配に基づく説明を促す視覚言語モデルの事前学習のためのマージンベース損失を提案する。
我々は、この目的を注意マスク一貫性(AMC)と呼び、より高速なR-CNNのようなオブジェクト検出器を明示的に訓練する領域レベルのアノテーションに依存するモデルと比較して、優れた視覚的グラウンドディング性能が得られることを示した。
AMCは、注意点を注視する勾配に基づく説明マスクを奨励し、主にアノテーションを含む画像の注釈付き領域内で機能する。
特に、標準視覚言語モデリングの目的の上にamcで訓練されたモデルは、flickr30kの視覚接地ベンチマークにおいて、最先端の精度が86.59%、最高の先行モデルと比較して絶対的な改善が5.48%である。
提案手法は表現理解のための確立されたベンチマークでも非常によく評価され、人間のアノテーションに合致するグラデーションに基づく説明の設計により、さらなる利点が得られている。
関連論文リスト
- Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective [44.045767657945895]
画像テキスト検索(ITR)評価パイプラインの脆性について,概念的粒度に着目して検討した。
ゼロショット条件下では,標準データセットと細粒度データセットの両方に対して,最先端のビジョンランゲージモデルを4種類評価する。
その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Self-supervised co-salient object detection via feature correspondence at multiple scales [27.664016341526988]
本稿では,画像群における2段階の自己教師型手法を用いて,セグメンテーションアノテーションを必要とせず,共起性有色物体(CoSOD)を検出する手法を提案する。
我々は、画像間の局所パッチレベルの特徴対応を計算し、コサレント領域を検出する自己教師ネットワークを訓練する。
3つのCoSODベンチマークデータセットの実験では、我々のモデルは、対応する最先端モデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2024-03-17T06:21:21Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning [6.532114018212791]
微調整された視覚言語事前学習モデルは、競争力やより強い一般化結果をもたらす。
これは、ドメインの一般化にImageNetベースの転送学習を使用するという標準に挑戦する。
また、ドメイン内一般化の改善により、Cityscapesテストセットの86.4% mIoUのSOTAが改善された。
論文 参考訳(メタデータ) (2023-12-04T16:46:38Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。