Fugu-MT 論文翻訳(概要): Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations

論文の概要: Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations

arxiv url: http://arxiv.org/abs/2206.15462v3
Date: Mon, 12 Jun 2023 17:59:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 02:49:41.070015
Title: Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations
Title（参考訳）: 一貫性のグラディエントに基づく説明の強化による視覚的接地の改善
Authors: Ziyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ordonez
Abstract要約: 本稿では,地域レベルのアノテーションに整合した勾配に基づく説明を奨励する,視覚言語モデル事前学習におけるマージンに基づく損失を提案する。我々は,より高速なR-CNNなどのオブジェクト検出器を明示的にトレーニングする領域レベルのアノテーションに依存するモデルに比べて,視覚的グラウンドディング性能が優れていることを示す。
参考スコア（独自算出の注目度）: 51.13273207740456
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose a margin-based loss for vision-language model pretraining that encourages gradient-based explanations that are consistent with region-level annotations. We refer to this objective as Attention Mask Consistency (AMC) and demonstrate that it produces superior visual grounding performance compared to models that rely instead on region-level annotations for explicitly training an object detector such as Faster R-CNN. AMC works by encouraging gradient-based explanation masks that focus their attention scores mostly within annotated regions of interest for images that contain such annotations. Particularly, a model trained with AMC on top of standard vision-language modeling objectives obtains a state-of-the-art accuracy of 86.59% in the Flickr30k visual grounding benchmark, an absolute improvement of 5.48% when compared to the best previous model. Our approach also performs exceedingly well on established benchmarks for referring expression comprehension and offers the added benefit by design of gradient-based explanations that better align with human annotations.
Abstract（参考訳）: 地域レベルのアノテーションと整合した勾配に基づく説明を促す視覚言語モデルの事前学習のためのマージンベース損失を提案する。我々は、この目的を注意マスク一貫性(AMC)と呼び、より高速なR-CNNのようなオブジェクト検出器を明示的に訓練する領域レベルのアノテーションに依存するモデルと比較して、優れた視覚的グラウンドディング性能が得られることを示した。 AMCは、注意点を注視する勾配に基づく説明マスクを奨励し、主にアノテーションを含む画像の注釈付き領域内で機能する。特に、標準視覚言語モデリングの目的の上にamcで訓練されたモデルは、flickr30kの視覚接地ベンチマークにおいて、最先端の精度が86.59%、最高の先行モデルと比較して絶対的な改善が5.48%である。提案手法は表現理解のための確立されたベンチマークでも非常によく評価され、人間のアノテーションに合致するグラデーションに基づく説明の設計により、さらなる利点が得られている。

関連論文リスト

Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文参考訳（メタデータ） (2025-05-26T16:05:10Z)
Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文参考訳（メタデータ） (2025-04-05T16:25:34Z)
Beyond One-Size-Fits-All: Tailored Benchmarks for Efficient Evaluation [19.673388630963807]
本論文では,各対象モデルに合わせてカスタマイズした評価を行うTaloredBenchを提案する。 Global-coresetはまず、ターゲットモデル毎に最も一貫性のあるソースモデルを特定するプローブとして構築される。拡張性のあるK-Medoidsクラスタリングアルゴリズムが提案され、Global-coresetを各ターゲットモデルに適したNative-coresetに拡張する。
論文参考訳（メタデータ） (2025-02-19T09:31:50Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective [44.045767657945895]
画像テキスト検索(ITR)評価パイプラインの脆性について,概念的粒度に着目して検討した。ゼロショット条件下では,標準データセットと細粒度データセットの両方に対して,最先端のビジョンランゲージモデルを4種類評価する。その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
論文参考訳（メタデータ） (2024-07-21T18:08:44Z)
Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文参考訳（メタデータ） (2024-03-20T17:59:43Z)
Self-supervised co-salient object detection via feature correspondence at multiple scales [27.664016341526988]
本稿では,画像群における2段階の自己教師型手法を用いて,セグメンテーションアノテーションを必要とせず,共起性有色物体(CoSOD)を検出する手法を提案する。我々は、画像間の局所パッチレベルの特徴対応を計算し、コサレント領域を検出する自己教師ネットワークを訓練する。 3つのCoSODベンチマークデータセットの実験では、我々のモデルは、対応する最先端モデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2024-03-17T06:21:21Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning [6.532114018212791]
微調整された視覚言語事前学習モデルは、競争力やより強い一般化結果をもたらす。これは、ドメインの一般化にImageNetベースの転送学習を使用するという標準に挑戦する。また、ドメイン内一般化の改善により、Cityscapesテストセットの86.4% mIoUのSOTAが改善された。
論文参考訳（メタデータ） (2023-12-04T16:46:38Z)
Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-11-02T16:31:49Z)
GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文参考訳（メタデータ） (2023-06-06T16:16:05Z)
Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。 Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文参考訳（メタデータ） (2022-10-27T02:57:26Z)
Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文参考訳（メタデータ） (2021-12-09T19:13:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。