論文の概要: Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations
- arxiv url: http://arxiv.org/abs/2206.15462v4
- Date: Sun, 7 Jan 2024 00:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:48:10.021362
- Title: Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations
- Title(参考訳): 一貫性のグラディエントに基づく説明の強化による視覚的接地の改善
- Authors: Ziyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ordonez
- Abstract要約: 注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
- 参考スコア(独自算出の注目度): 58.442103936918805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a margin-based loss for tuning joint vision-language models so
that their gradient-based explanations are consistent with region-level
annotations provided by humans for relatively smaller grounding datasets. We
refer to this objective as Attention Mask Consistency (AMC) and demonstrate
that it produces superior visual grounding results than previous methods that
rely on using vision-language models to score the outputs of object detectors.
Particularly, a model trained with AMC on top of standard vision-language
modeling objectives obtains a state-of-the-art accuracy of 86.49% in the
Flickr30k visual grounding benchmark, an absolute improvement of 5.38% when
compared to the best previous model trained under the same level of
supervision. Our approach also performs exceedingly well on established
benchmarks for referring expression comprehension where it obtains 80.34%
accuracy in the easy test of RefCOCO+, and 64.55% in the difficult split. AMC
is effective, easy to implement, and is general as it can be adopted by any
vision-language model, and can use any type of region annotations.
- Abstract(参考訳): そこで本研究では,人間が比較的小さな接地データセットに対して提供した領域レベルのアノテーションと一致するように,共同視覚言語モデルの調整のためのマージンベースロスを提案する。
我々は、この目的を注意マスク一貫性(AMC)と呼び、対象検出器の出力を評価するために視覚言語モデルを使用する従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示した。
特に、標準視覚言語モデリングの目的の上にamcで訓練されたモデルは、flickr30kの視覚接地ベンチマークにおいて、同じレベルの監視下で訓練された最良の以前のモデルと比較して絶対的な5.38%の精度で86.49%の最先端精度が得られる。
また,RefCOCO+の簡便なテストでは80.34%,難解なスプリットでは64.55%の精度が得られた。
amcは有効であり、実装が容易であり、視覚言語モデルに採用できるので一般的には、任意のタイプの領域アノテーションを使うことができる。
関連論文リスト
- Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective [44.045767657945895]
画像テキスト検索(ITR)評価パイプラインの脆性について,概念的粒度に着目して検討した。
ゼロショット条件下では,標準データセットと細粒度データセットの両方に対して,最先端のビジョンランゲージモデルを4種類評価する。
その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Self-supervised co-salient object detection via feature correspondence at multiple scales [27.664016341526988]
本稿では,画像群における2段階の自己教師型手法を用いて,セグメンテーションアノテーションを必要とせず,共起性有色物体(CoSOD)を検出する手法を提案する。
我々は、画像間の局所パッチレベルの特徴対応を計算し、コサレント領域を検出する自己教師ネットワークを訓練する。
3つのCoSODベンチマークデータセットの実験では、我々のモデルは、対応する最先端モデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2024-03-17T06:21:21Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning [6.532114018212791]
微調整された視覚言語事前学習モデルは、競争力やより強い一般化結果をもたらす。
これは、ドメインの一般化にImageNetベースの転送学習を使用するという標準に挑戦する。
また、ドメイン内一般化の改善により、Cityscapesテストセットの86.4% mIoUのSOTAが改善された。
論文 参考訳(メタデータ) (2023-12-04T16:46:38Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。