論文の概要: MaskInversion: Localized Embeddings via Optimization of Explainability Maps
- arxiv url: http://arxiv.org/abs/2407.20034v1
- Date: Mon, 29 Jul 2024 14:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 13:34:43.352844
- Title: MaskInversion: Localized Embeddings via Optimization of Explainability Maps
- Title(参考訳): MaskInversion: 説明可能性マップの最適化によるローカルな埋め込み
- Authors: Walid Bousselham, Sofian Chaybouti, Christian Rupprecht, Vittorio Ferrari, Hilde Kuehne,
- Abstract要約: MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
- 参考スコア(独自算出の注目度): 49.50785637749757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language foundation models such as CLIP have achieved tremendous results in global vision-language alignment, but still show some limitations in creating representations for specific image regions. % To address this problem, we propose MaskInversion, a method that leverages the feature representations of pre-trained foundation models, such as CLIP, to generate a context-aware embedding for a query image region specified by a mask at test time. MaskInversion starts with initializing an embedding token and compares its explainability map, derived from the foundation model, to the query mask. The embedding token is then subsequently refined to approximate the query region by minimizing the discrepancy between its explainability map and the query mask. During this process, only the embedding vector is updated, while the underlying foundation model is kept frozen allowing to use MaskInversion with any pre-trained model. As deriving the explainability map involves computing its gradient, which can be expensive, we propose a gradient decomposition strategy that simplifies this computation. The learned region representation can be used for a broad range of tasks, including open-vocabulary class retrieval, referring expression comprehension, as well as for localized captioning and image generation. We evaluate the proposed method on all those tasks on several datasets such as PascalVOC, MSCOCO, RefCOCO, and OpenImagesV7 and show its capabilities compared to other SOTA approaches.
- Abstract(参考訳): CLIPのようなヴィジュアル言語基盤モデルは、グローバルなヴィジュアル言語アライメントにおいて大きな成果を上げているが、特定の画像領域に対する表現の作成にはいくつかの制限がある。
% この問題に対処するため,CLIP などの事前学習基盤モデルの特徴表現を利用した MaskInversion を提案し,テスト時にマスクが指定したクエリ画像領域に対するコンテキスト認識埋め込みを生成する。
MaskInversionは埋め込みトークンの初期化から始まり、基礎モデルから派生した説明可能性マップをクエリマスクと比較する。
その後、埋め込みトークンを精製し、その説明可能性マップとクエリマスクとの差を最小限にしてクエリ領域を近似する。
このプロセスの間、埋め込みベクターのみが更新され、基礎となる基盤モデルは凍結され、任意のトレーニング済みモデルでMaskInversionを使用することができる。
説明可能性マップの導出には、コストのかかる勾配の計算が伴うため、この計算を単純化する勾配分解戦略を提案する。
学習された領域表現は、オープン語彙クラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
提案手法をPascalVOC, MSCOCO, RefCOCO, OpenImagesV7 などの複数のデータセット上で評価し,他のSOTA手法と比較してその性能を示す。
関連論文リスト
- Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - Pre-training with Random Orthogonal Projection Image Modeling [32.667183132025094]
Masked Image Modeling (MIM)は、ラベルを使わずに視覚前訓練のための強力な自己教師型戦略である。
ランダム直交投影画像モデリング(ROPIM)に基づく画像モデリングフレームワークを提案する。
ROPIMはノイズ分散が保証される場合の空間的トークン情報を低減し、局所的に変化するマスキング度の下で空間的画像領域全体をマスキングすると見なすことができる。
論文 参考訳(メタデータ) (2023-10-28T15:42:07Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - Hierarchical Dynamic Masks for Visual Explanation of Neural Networks [5.333582981327497]
モデル分類における画像画素の重要性を表す視覚的説明マップを生成するサリエンシ手法は、ニューラルネットワークの決定を説明するための一般的な手法である。
本稿では,新しい説明地図生成手法である階層型動的マスク(HDM)を提案する。
提案手法は, 自然および医学的なデータセット上での認識と位置推定能力において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-01-12T12:24:49Z) - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文 参考訳(メタデータ) (2022-10-09T02:57:32Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Investigating and Simplifying Masking-based Saliency Methods for Model
Interpretability [5.387323728379395]
画像の最も情報性の高い領域を識別する残差マップは、モデル解釈可能性に有用である。
唾液マップを作成するための一般的なアプローチは、画像の一部をマスクする入力マスクを生成することである。
マスキングモデルでは,クラス毎に10個のサンプルをトレーニングすることが可能であり,ローカライズエラーが0.7ポイントしか増加せず,いまだにサリエンシマップを生成可能であることを示す。
論文 参考訳(メタデータ) (2020-10-19T18:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。