論文の概要: Unsupervised Training of Vision Transformers with Synthetic Negatives
- arxiv url: http://arxiv.org/abs/2509.02024v1
- Date: Tue, 02 Sep 2025 07:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.934933
- Title: Unsupervised Training of Vision Transformers with Synthetic Negatives
- Title(参考訳): 合成負の視覚変換器の教師なし学習
- Authors: Nikolaos Giakoumoglou, Andreas Floros, Kleanthis Marios Papadopoulos, Tania Stathaki,
- Abstract要約: 我々は、視覚変換器表現学習を改善するために合成ハードネガティブを統合する。
この単純で効果的な手法は、学習された表現の識別力を向上させる。
- 参考スコア(独自算出の注目度): 5.571793666361683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper does not introduce a novel method per se. Instead, we address the neglected potential of hard negative samples in self-supervised learning. Previous works explored synthetic hard negatives but rarely in the context of vision transformers. We build on this observation and integrate synthetic hard negatives to improve vision transformer representation learning. This simple yet effective technique notably improves the discriminative power of learned representations. Our experiments show performance improvements for both DeiT-S and Swin-T architectures.
- Abstract(参考訳): 本論文では, それぞれに新しい手法を導入していない。
代わりに、自己教師あり学習における強陰性サンプルの無視された可能性に対処する。
それまでの研究は合成強陰性の研究であったが、視覚変換器の文脈ではめったに行われなかった。
我々はこの観測に基づいて、視覚変換器表現学習を改善するために合成ハードネガティブを統合する。
この単純で効果的な手法は、学習された表現の識別力を向上させる。
本実験は,DeiT-SアーキテクチャとSwin-Tアーキテクチャの性能改善を示す。
関連論文リスト
- Fake & Square: Training Self-Supervised Vision Transformers with Synthetic Data and Synthetic Hard Negatives [5.571793666361683]
私たちは、視覚のための既存の自己教師型学習アプローチの上に構築し、"それを作るまでそれを作れ"というアドエイジからインスピレーションを導きます。
本研究では, 教師なし表現学習における生成モデルの可能性について検討し, サンプルの多様性を高めるために合成データを活用する。
第2に,表現空間における合成硬質負の生成の可能性について検討し,多様かつ困難なコントラストを創出する。
論文 参考訳(メタデータ) (2025-09-02T07:17:46Z) - When recalling in-context, Transformers are not SSMs [17.2249234816671]
本稿では,現代の反復モデルの性能において,学習率の選択が重要な役割を担っていることを示す。
次に1層変圧器を検査し、その性能が劣っているにもかかわらず、トレーニングダイナミクスが驚くほど誘導ヘッドの形成に類似していることを明らかにする。
論文 参考訳(メタデータ) (2025-08-26T13:45:08Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - BiRT: Bio-inspired Replay in Vision Transformers for Continual Learning [13.056764072568749]
人間は、破滅的な忘れ物なしに、生涯を通してタスクを通して知識を取得し、同化し、伝達する驚くべき能力を持っている。
視覚変換器を用いた表現リハーサルに基づく連続学習手法であるBiRTを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:19:39Z) - Improving Transferability of Representations via Augmentation-Aware
Self-Supervision [117.15012005163322]
AugSelfは、ランダムに強化された2つのサンプル間の拡張パラメータの違いを学習する補助的な自己教師型損失である。
私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。
AugSelfは、最新の最先端の表現学習手法に、無視できる追加のトレーニングコストで簡単に組み込むことができる。
論文 参考訳(メタデータ) (2021-11-18T10:43:50Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - An Empirical Study of Training Self-Supervised Visual Transformers [70.27107708555185]
自己監視型視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。
これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
論文 参考訳(メタデータ) (2021-04-05T17:59:40Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - A Broad Study on the Transferability of Visual Representations with
Contrastive Learning [15.667240680328922]
線形評価, 全ネットワーク転送, 数ショット認識のための造影的アプローチの学習表現の伝達性について検討する。
その結果、コントラスト的アプローチは、異なる下流タスクに簡単に移行できる表現を学習できることが示される。
分析の結果, コントラスト的アプローチから得られた表現は, クロスエントロピーモデルよりも低レベル・中レベルセマンティクスを含んでいることがわかった。
論文 参考訳(メタデータ) (2021-03-24T22:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。