Fugu-MT 論文翻訳(概要): Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations

論文の概要: Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations

arxiv url: http://arxiv.org/abs/2206.15462v4
Date: Sun, 7 Jan 2024 00:24:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 00:48:10.021362
Title: Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations
Title（参考訳）: 一貫性のグラディエントに基づく説明の強化による視覚的接地の改善
Authors: Ziyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ordonez
Abstract要約: 注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。 AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
参考スコア（独自算出の注目度）: 58.442103936918805
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose a margin-based loss for tuning joint vision-language models so that their gradient-based explanations are consistent with region-level annotations provided by humans for relatively smaller grounding datasets. We refer to this objective as Attention Mask Consistency (AMC) and demonstrate that it produces superior visual grounding results than previous methods that rely on using vision-language models to score the outputs of object detectors. Particularly, a model trained with AMC on top of standard vision-language modeling objectives obtains a state-of-the-art accuracy of 86.49% in the Flickr30k visual grounding benchmark, an absolute improvement of 5.38% when compared to the best previous model trained under the same level of supervision. Our approach also performs exceedingly well on established benchmarks for referring expression comprehension where it obtains 80.34% accuracy in the easy test of RefCOCO+, and 64.55% in the difficult split. AMC is effective, easy to implement, and is general as it can be adopted by any vision-language model, and can use any type of region annotations.
Abstract（参考訳）: そこで本研究では,人間が比較的小さな接地データセットに対して提供した領域レベルのアノテーションと一致するように,共同視覚言語モデルの調整のためのマージンベースロスを提案する。我々は、この目的を注意マスク一貫性(AMC)と呼び、対象検出器の出力を評価するために視覚言語モデルを使用する従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示した。特に、標準視覚言語モデリングの目的の上にamcで訓練されたモデルは、flickr30kの視覚接地ベンチマークにおいて、同じレベルの監視下で訓練された最良の以前のモデルと比較して絶対的な5.38%の精度で86.49%の最先端精度が得られる。また,RefCOCO+の簡便なテストでは80.34%,難解なスプリットでは64.55%の精度が得られた。 amcは有効であり、実装が容易であり、視覚言語モデルに採用できるので一般的には、任意のタイプの領域アノテーションを使うことができる。

関連論文リスト

Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文参考訳（メタデータ） (2025-05-26T16:05:10Z)
Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文参考訳（メタデータ） (2025-04-05T16:25:34Z)
Beyond One-Size-Fits-All: Tailored Benchmarks for Efficient Evaluation [19.673388630963807]
本論文では,各対象モデルに合わせてカスタマイズした評価を行うTaloredBenchを提案する。 Global-coresetはまず、ターゲットモデル毎に最も一貫性のあるソースモデルを特定するプローブとして構築される。拡張性のあるK-Medoidsクラスタリングアルゴリズムが提案され、Global-coresetを各ターゲットモデルに適したNative-coresetに拡張する。
論文参考訳（メタデータ） (2025-02-19T09:31:50Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective [44.045767657945895]
画像テキスト検索(ITR)評価パイプラインの脆性について,概念的粒度に着目して検討した。ゼロショット条件下では,標準データセットと細粒度データセットの両方に対して,最先端のビジョンランゲージモデルを4種類評価する。その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
論文参考訳（メタデータ） (2024-07-21T18:08:44Z)
Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文参考訳（メタデータ） (2024-03-20T17:59:43Z)
Self-supervised co-salient object detection via feature correspondence at multiple scales [27.664016341526988]
本稿では,画像群における2段階の自己教師型手法を用いて,セグメンテーションアノテーションを必要とせず,共起性有色物体(CoSOD)を検出する手法を提案する。我々は、画像間の局所パッチレベルの特徴対応を計算し、コサレント領域を検出する自己教師ネットワークを訓練する。 3つのCoSODベンチマークデータセットの実験では、我々のモデルは、対応する最先端モデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2024-03-17T06:21:21Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning [6.532114018212791]
微調整された視覚言語事前学習モデルは、競争力やより強い一般化結果をもたらす。これは、ドメインの一般化にImageNetベースの転送学習を使用するという標準に挑戦する。また、ドメイン内一般化の改善により、Cityscapesテストセットの86.4% mIoUのSOTAが改善された。
論文参考訳（メタデータ） (2023-12-04T16:46:38Z)
Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-11-02T16:31:49Z)
GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文参考訳（メタデータ） (2023-06-06T16:16:05Z)
Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。 Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文参考訳（メタデータ） (2022-10-27T02:57:26Z)
Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文参考訳（メタデータ） (2021-12-09T19:13:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。