論文の概要: Stochastic Vision Transformers with Wasserstein Distance-Aware Attention
- arxiv url: http://arxiv.org/abs/2311.18645v1
- Date: Thu, 30 Nov 2023 15:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:54:35.221192
- Title: Stochastic Vision Transformers with Wasserstein Distance-Aware Attention
- Title(参考訳): Wasserstein Distance-Aware Attention を用いた確率的視覚変換器
- Authors: Franciskus Xaverius Erick, Mina Rezaei, Johanna Paula M\"uller,
Bernhard Kainz
- Abstract要約: 自己教師付き学習は、限られたラベル付きデータから知識を得るための最も有望なアプローチの1つである。
我々は、不確実性と距離認識を自己教師付き学習パイプラインに統合する新しいビジョントランスフォーマーを導入する。
提案手法は,多種多様なデータセットを対象とした多種多様な実験において,自己教師付きベースラインを超える精度とキャリブレーションを実現する。
- 参考スコア(独自算出の注目度): 8.407731308079025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning is one of the most promising approaches to acquiring
knowledge from limited labeled data. Despite the substantial advancements made
in recent years, self-supervised models have posed a challenge to
practitioners, as they do not readily provide insight into the model's
confidence and uncertainty. Tackling this issue is no simple feat, primarily
due to the complexity involved in implementing techniques that can make use of
the latent representations learned during pre-training without relying on
explicit labels. Motivated by this, we introduce a new stochastic vision
transformer that integrates uncertainty and distance awareness into
self-supervised learning (SSL) pipelines. Instead of the conventional
deterministic vector embedding, our novel stochastic vision transformer encodes
image patches into elliptical Gaussian distributional embeddings. Notably, the
attention matrices of these stochastic representational embeddings are computed
using Wasserstein distance-based attention, effectively capitalizing on the
distributional nature of these embeddings. Additionally, we propose a
regularization term based on Wasserstein distance for both pre-training and
fine-tuning processes, thereby incorporating distance awareness into latent
representations. We perform extensive experiments across different tasks such
as in-distribution generalization, out-of-distribution detection, dataset
corruption, semi-supervised settings, and transfer learning to other datasets
and tasks. Our proposed method achieves superior accuracy and calibration,
surpassing the self-supervised baseline in a wide range of experiments on a
variety of datasets.
- Abstract(参考訳): 自己教師付き学習は、限られたラベル付きデータから知識を得るための最も有望なアプローチの1つである。
近年の大幅な進歩にもかかわらず、自己監督型モデルはモデルの信頼性と不確実性についてすぐには洞察できないため、実践者には課題を提起している。
主に、明示的なラベルに頼ることなく、事前トレーニング中に学習した潜在表現を活用できるテクニックを実装することに関わる複雑さのためです。
そこで我々は,不確実性と距離認識を自己教師付き学習(SSL)パイプラインに統合する,新しい確率的視覚変換器を提案する。
従来の決定論的ベクトル埋め込みの代わりに、新しい確率的ビジョントランスフォーマーは画像パッチを楕円ガウス分布埋め込みに符号化する。
特に、これらの確率的表現的埋め込みの注意行列は、wasserstein距離に基づく注意を用いて計算され、これらの埋め込みの分布的性質を効果的に活用する。
さらに, 事前学習と微調整の両方のプロセスに対して, Wasserstein 距離に基づく正規化項を提案し, 遅延表現に距離認識を組み込む。
分散の一般化,分散の外部検出,データセットの破損,半教師付き設定,他のデータセットやタスクへの学習など,さまざまなタスクにわたる広範な実験を行う。
提案手法は,多種多様なデータセットを用いた実験において,自己教師ありベースラインを上回って,精度と校正に優れる。
関連論文リスト
- Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2024-06-09T16:58:19Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - Evaluating the Label Efficiency of Contrastive Self-Supervised Learning
for Multi-Resolution Satellite Imagery [0.0]
遠隔センシング領域における自己教師付き学習は、容易に利用可能なラベル付きデータを活用するために応用されている。
本稿では,ラベル効率のレンズを用いた自己教師型視覚表現学習について検討する。
論文 参考訳(メタデータ) (2022-10-13T06:54:13Z) - Uncertainty in Contrastive Learning: On the Predictability of Downstream
Performance [7.411571833582691]
このような表現の不確実性は、単一のデータポイントに対して有意義な方法で定量化できるかどうかを考察する。
埋め込み空間におけるトレーニングデータの分布を直接推定することにより,この目標を達成することができることを示す。
論文 参考訳(メタデータ) (2022-07-19T15:44:59Z) - Squeezing Backbone Feature Distributions to the Max for Efficient
Few-Shot Learning [3.1153758106426603]
ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。
本稿では,特徴ベクトルをガウス分布に近づけるように処理するトランスファーベース手法を提案する。
また,学習中に未学習のサンプルが利用可能となる多段階的数ショット学習では,達成された性能をさらに向上させる最適なトランスポートインスピレーションアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-10-18T16:29:17Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - Ask-n-Learn: Active Learning via Reliable Gradient Representations for
Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。
Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文 参考訳(メタデータ) (2020-09-30T05:19:56Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。