論文の概要: Fake & Square: Training Self-Supervised Vision Transformers with Synthetic Data and Synthetic Hard Negatives
- arxiv url: http://arxiv.org/abs/2509.02029v1
- Date: Tue, 02 Sep 2025 07:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.93787
- Title: Fake & Square: Training Self-Supervised Vision Transformers with Synthetic Data and Synthetic Hard Negatives
- Title(参考訳): Fake & Square: 合成データと合成ハードネガティクスを用いた自己監督型視覚変換器のトレーニング
- Authors: Nikolaos Giakoumoglou, Andreas Floros, Kleanthis Marios Papadopoulos, Tania Stathaki,
- Abstract要約: 私たちは、視覚のための既存の自己教師型学習アプローチの上に構築し、"それを作るまでそれを作れ"というアドエイジからインスピレーションを導きます。
本研究では, 教師なし表現学習における生成モデルの可能性について検討し, サンプルの多様性を高めるために合成データを活用する。
第2に,表現空間における合成硬質負の生成の可能性について検討し,多様かつ困難なコントラストを創出する。
- 参考スコア(独自算出の注目度): 5.571793666361683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper does not introduce a new method per se. Instead, we build on existing self-supervised learning approaches for vision, drawing inspiration from the adage "fake it till you make it". While contrastive self-supervised learning has achieved remarkable success, it typically relies on vast amounts of real-world data and carefully curated hard negatives. To explore alternatives to these requirements, we investigate two forms of "faking it" in vision transformers. First, we study the potential of generative models for unsupervised representation learning, leveraging synthetic data to augment sample diversity. Second, we examine the feasibility of generating synthetic hard negatives in the representation space, creating diverse and challenging contrasts. Our framework - dubbed Syn2Co - combines both approaches and evaluates whether synthetically enhanced training can lead to more robust and transferable visual representations on DeiT-S and Swin-T architectures. Our findings highlight the promise and limitations of synthetic data in self-supervised learning, offering insights for future work in this direction.
- Abstract(参考訳): 本論文では, それぞれに新しい手法を導入していない。
代わりに、私たちは、視覚のための既存の自己教師型学習アプローチを構築し、そのアドエイジからインスピレーションを得て、"それを作るまでそれを作ります"。
対照的な自己教師型学習は目覚ましい成功を収めてきたが、一般的には大量の実世界のデータと慎重にキュレートされたハードネガティブに依存している。
これらの要件の代替策を探るため、視覚変換器における2種類の「偽装」について検討する。
まず,教師なし表現学習における生成モデルの可能性について検討し,サンプルの多様性を高めるために合成データを活用する。
第2に,表現空間における合成硬質負の生成の可能性について検討し,多様かつ困難なコントラストを創出する。
我々のフレームワークはSyn2Coと呼ばれ、両方のアプローチを組み合わせて、合成的に強化されたトレーニングが、DeiT-SおよびSwin-Tアーキテクチャ上でより堅牢で伝達可能な視覚表現に繋がるかどうかを評価する。
本研究は, 自己教師型学習における合成データの可能性と限界を強調し, 今後の研究への洞察を提供するものである。
関連論文リスト
- Unsupervised Training of Vision Transformers with Synthetic Negatives [5.571793666361683]
我々は、視覚変換器表現学習を改善するために合成ハードネガティブを統合する。
この単純で効果的な手法は、学習された表現の識別力を向上させる。
論文 参考訳(メタデータ) (2025-09-02T07:14:21Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real
Novel View Synthesis via Contrastive Learning [102.46382882098847]
まず,合成から現実への新規な視点合成における合成データの影響について検討した。
本稿では,幾何制約を伴う多視点一貫した特徴を学習するために,幾何対応のコントラスト学習を導入することを提案する。
提案手法は,PSNR,SSIM,LPIPSの点で,既存の一般化可能な新規ビュー合成手法よりも高い画質で精細な画像を描画することができる。
論文 参考訳(メタデータ) (2023-03-20T12:06:14Z) - A Broad Study on the Transferability of Visual Representations with
Contrastive Learning [15.667240680328922]
線形評価, 全ネットワーク転送, 数ショット認識のための造影的アプローチの学習表現の伝達性について検討する。
その結果、コントラスト的アプローチは、異なる下流タスクに簡単に移行できる表現を学習できることが示される。
分析の結果, コントラスト的アプローチから得られた表現は, クロスエントロピーモデルよりも低レベル・中レベルセマンティクスを含んでいることがわかった。
論文 参考訳(メタデータ) (2021-03-24T22:55:04Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。