論文の概要: Learning with Difference Attention for Visually Grounded Self-supervised
Representations
- arxiv url: http://arxiv.org/abs/2306.14603v1
- Date: Mon, 26 Jun 2023 11:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 13:56:06.946090
- Title: Learning with Difference Attention for Visually Grounded Self-supervised
Representations
- Title(参考訳): 視覚的自己教師付き表現のための差分注意による学習
- Authors: Aishwarya Agarwal and Srikrishna Karanam and Balaji Vasan Srinivasan
- Abstract要約: 教師なしの方法で視覚的注意マップを計算するために,視覚的差分注意(VDA)を提案する。
VAは画像中のすべての正常な領域を正確に強調するものではないことが示され、セグメント化のような下流タスクの強い表現を学習できないことが示唆された。
これらの制限により,新たな学習目標である差分注意損失(DiDA)が提案され,SSLモデルの視覚的に画像の健全な領域にかなりの改善がもたらされた。
- 参考スコア(独自算出の注目度): 18.743052370916192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works in self-supervised learning have shown impressive results on
single-object images, but they struggle to perform well on complex multi-object
images as evidenced by their poor visual grounding. To demonstrate this
concretely, we propose visual difference attention (VDA) to compute visual
attention maps in an unsupervised fashion by comparing an image with its
salient-regions-masked-out version. We use VDA to derive attention maps for
state-of-the art SSL methods and show they do not highlight all salient regions
in an image accurately, suggesting their inability to learn strong
representations for downstream tasks like segmentation. Motivated by these
limitations, we cast VDA as a differentiable operation and propose a new
learning objective, Differentiable Difference Attention (DiDA) loss, which
leads to substantial improvements in an SSL model's visually grounding to an
image's salient regions.
- Abstract(参考訳): 自己教師付き学習における最近の研究は、単一対象画像において印象的な結果を示しているが、視覚の粗末さから証明された複雑な多目的画像ではうまく機能しない。
そこで本研究では,視覚差注意法(vda)を提案し,視覚差注意法(visual difference attention, vda)を用いて視覚注意マップを教師なしで計算する手法を提案する。
我々は,vda を用いて最先端ssl 法に対する注意マップを導出し,画像中のすべてのサルエント領域を正確に強調していないことを示し,セグメンテーションなどの下流タスクに対して強い表現を学習できないことを示唆する。
これらの制限に動機づけられて,vdaを微分可能な操作として,新たな学習目標であるdida( differentiable difference attention)損失を提案する。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - C-SAW: Self-Supervised Prompt Learning for Image Generalization in
Remote Sensing [12.930814370829893]
本稿では,大規模事前学習型視覚言語モデル(VLM)であるCLIPを用いて,光学リモートセンシング画像の解析における領域およびクラス一般化問題に焦点をあてる。
既存のプロンプト学習技術は、ドメイン情報とコンテンツ情報をプロンプトに組み込むことの重要性を見落としている。
本稿では,視覚的特徴の表現性を高めつつ,ドメイン不変の即時学習を保証するソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-27T13:35:20Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - Saliency Guided Contrastive Learning on Scene Images [71.07412958621052]
我々は、学習中のモデルの出力から導かれるサリエンシマップを活用し、差別的な領域を強調し、対照的な学習全体をガイドする。
提案手法は,画像上の自己教師学習の性能を,画像の線形評価において+1.1,+4.3,+2.2の精度で向上させる。
論文 参考訳(メタデータ) (2023-02-22T15:54:07Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Unsupervised Learning of Dense Visual Representations [14.329781842154281]
本研究では,高密度表現の教師なし学習のためのビュー・アグノスティック・Dense Representation (VADeR)を提案する。
VADeRは、異なる視聴条件に対して局所的な特徴を一定に保ち続けるように強制することで、ピクセルワイズ表現を学習する。
提案手法は、複数の密集予測タスクにおいて、ImageNetの教師付き事前学習よりも優れる。
論文 参考訳(メタデータ) (2020-11-11T01:28:11Z) - Unsupervised Deep Metric Learning with Transformed Attention Consistency
and Contrastive Clustering Loss [28.17607283348278]
教師なしのメートル法学習のための既存のアプローチは、入力画像自体の自己超越情報を探索することに焦点を当てている。
我々は、画像を分析する際、人間の目は個々の画像を調べるのではなく、互いに画像を比較することが多いことを観察した。
本研究では,画像間の自己超越情報に基づいてネットワークを学習する,教師なし深度学習のための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-08-10T19:33:47Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。