論文の概要: Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations
- arxiv url: http://arxiv.org/abs/2206.15462v1
- Date: Thu, 30 Jun 2022 17:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 13:30:11.015263
- Title: Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations
- Title(参考訳): 一貫性のグラディエントに基づく説明の強化による視覚的接地の改善
- Authors: Ziyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ord\'o\~nez
Rom\'an
- Abstract要約: 本稿では,地域レベルのアノテーションに整合した勾配に基づく説明を奨励する,視覚言語モデル事前学習におけるマージンに基づく損失を提案する。
我々は,より高速なR-CNNなどのオブジェクト検出器を明示的にトレーニングする領域レベルのアノテーションに依存するモデルに比べて,視覚的グラウンドディング性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 38.97554928187078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a margin-based loss for vision-language model pretraining that
encourages gradient-based explanations that are consistent with region-level
annotations. We refer to this objective as Attention Mask Consistency (AMC) and
demonstrate that it produces superior visual grounding performance compared to
models that rely instead on region-level annotations for explicitly training an
object detector such as Faster R-CNN. AMC works by encouraging gradient-based
explanation masks that focus their attention scores mostly within annotated
regions of interest for images that contain such annotations. Particularly, a
model trained with AMC on top of standard vision-language modeling objectives
obtains a state-of-the-art accuracy of 86.59% in the Flickr30k visual grounding
benchmark, an absolute improvement of 5.48% when compared to the best previous
model. Our approach also performs exceedingly well on established benchmarks
for referring expression comprehension and offers the added benefit by design
of gradient-based explanations that better align with human annotations.
- Abstract(参考訳): 地域レベルのアノテーションと整合した勾配に基づく説明を促す視覚言語モデルの事前学習のためのマージンベース損失を提案する。
我々は、この目的を注意マスク一貫性(AMC)と呼び、より高速なR-CNNのようなオブジェクト検出器を明示的に訓練する領域レベルのアノテーションに依存するモデルと比較して、優れた視覚的グラウンドディング性能が得られることを示した。
AMCは、注意点を注視する勾配に基づく説明マスクを奨励し、主にアノテーションを含む画像の注釈付き領域内で機能する。
特に、標準視覚言語モデリングの目的の上にamcで訓練されたモデルは、flickr30kの視覚接地ベンチマークにおいて、最先端の精度が86.59%、最高の先行モデルと比較して絶対的な改善が5.48%である。
提案手法は表現理解のための確立されたベンチマークでも非常によく評価され、人間のアノテーションに合致するグラデーションに基づく説明の設計により、さらなる利点が得られている。
関連論文リスト
- Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Robust Fine-Tuning of Vision-Language Models for Domain Generalization [6.7181844004432385]
ファンデーションモデルは、分散シフトの下で、印象的なゼロショット推論能力とロバスト性を持っている。
一般的な視覚言語基盤モデルCLIPの微調整のための新しいレシピを提案する。
私たちの実験では、ゼロショットCLIPは、より複雑なベンチマークでトレーニング済みのビジョンモデルのパフォーマンスと一致しないが、少数ショットCLIPの微調整は、ビジョンのみのパフォーマンスよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-11-03T20:50:40Z) - Recognize Any Regions [59.08881073582635]
RegionSpotは、ローカライゼーション基盤モデルから位置認識のローカライゼーション知識と、ViLモデルから抽出されたセマンティック情報を統合するように設計されている。
我々のモデルは平均的精度(mAP)でGLIPを6.5%上回り、より困難で稀なカテゴリーではさらに14.8%の差がある。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Towards quantitative precision for ECG analysis: Leveraging state space
models, self-supervision and patient metadata [2.0777058026628583]
自動心電図解析システムの定量的精度向上を目的とした3つの要素について検討する。
まず、構造化状態空間モデル(SSM)を用いて時系列データの長期依存関係をキャプチャする。
第2に、コントラスト予測符号化を用いた自己教師型学習が、SSMの性能をさらに向上することを示した。
最後に、ECG信号と共に基本的な統計メタデータを入力として組み込む。
論文 参考訳(メタデータ) (2023-08-29T13:25:26Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。