論文の概要: Can You Learn to See Without Images? Procedural Warm-Up for Vision Transformers
- arxiv url: http://arxiv.org/abs/2511.13945v1
- Date: Mon, 17 Nov 2025 22:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.821052
- Title: Can You Learn to See Without Images? Procedural Warm-Up for Vision Transformers
- Title(参考訳): 画像なしで見ることができるか? 視覚変換器の手続き的ウォームアップ
- Authors: Zachary Shinnick, Liangze Jiang, Hemanth Saratchandran, Damien Teney, Anton van den Hengel,
- Abstract要約: 形式文法のような単純なアルゴリズムでデータを生成するので、結果は自然画像と合成画像のどちらとも関係がない。
我々は、この手続き的に生成されたデータを用いて、視覚パッチの埋め込み機構をバイパスするウォームアップフェーズでViTを事前訓練する。
標準的なイメージベースのトレーニングに続いて、このウォームアップはデータ効率、収束速度、下流のパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 40.183555811204506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers show remarkable versatility across domains, suggesting the existence of inductive biases beneficial across modalities. In this work, we explore a new way to instil such generic biases in vision transformers (ViTs) by pretraining on procedurally-generated data devoid of visual or semantic content. We generate this data with simple algorithms such as formal grammars, so the results bear no relationship to either natural or synthetic images. We use this procedurally-generated data to pretrain ViTs in a warm-up phase that bypasses their visual patch embedding mechanisms, thus encouraging the models to internalise abstract computational priors. When followed by standard image-based training, this warm-up significantly improves data efficiency, convergence speed, and downstream performance. On ImageNet-1k for example, allocating just 1% of the training budget to procedural data improves final accuracy by over 1.7%. In terms of its effect on performance, 1% procedurally generated data is thus equivalent to 28% of the ImageNet-1k data. These findings suggest a promising path toward new data-efficient and domain-agnostic pretraining strategies.
- Abstract(参考訳): 変圧器はドメイン間で顕著な万能性を示し、モダリティ間で有益な帰納バイアスの存在を示唆している。
本研究では、視覚的・意味的コンテンツのない手続き的に生成されたデータに基づいて、視覚変換器(ViT)にそのような一般的なバイアスを組み込む新しい方法を検討する。
このデータを形式文法などの単純なアルゴリズムで生成するので、結果は自然画像と合成画像のどちらとも関係がない。
我々は、この手続き的に生成されたデータを用いて、ViTをウォームアップフェーズで事前トレーニングし、視覚パッチの埋め込み機構を回避し、抽象計算の先行を内部化することを奨励する。
標準的なイメージベースのトレーニングに続いて、このウォームアップはデータ効率、収束速度、下流のパフォーマンスを大幅に改善する。
例えばImageNet-1kでは、プロシージャデータにトレーニング予算の1%しか割り当てていないため、最終的な精度は1.7%以上向上している。
パフォーマンスへの影響については、1%の手続き的に生成されたデータは、ImageNet-1kデータの28%に相当する。
これらの結果は、新しいデータ効率およびドメインに依存しない事前学習戦略への有望な道のりを示唆している。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Scaling Backwards: Minimal Synthetic Pre-training? [52.78699562832907]
予備学習は最小限の合成画像でも有効であることを示す。
その結果,1kから1kへの合成画像の大幅な削減は,事前学習性能の向上につながることが判明した。
提案手法は,合成画像から実画像へ拡張し,単一の実画像が類似した事前学習効果を示すかどうかを確認する。
論文 参考訳(メタデータ) (2024-08-01T16:20:02Z) - Curriculum Dataset Distillation [33.167484258219766]
性能とスケーラビリティの調和を目的としたカリキュラムベースのデータセット蒸留フレームワークを提案する。
この枠組みは、合成画像を戦略的に蒸留し、単純なものから複雑なものへと遷移するカリキュラムに固執する。
本フレームワークでは,Tiny-ImageNetで11.1%,ImageNet-1Kで9.0%,ImageNet-21Kで7.3%の大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-05-15T07:27:14Z) - PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining [13.823621924706348]
差分プライバシー(DP)画像データ合成により、企業はプライバシの懸念なしに合成画像を共有し、利用することができる。
従来の手法では、生成モデルの高度な技術と、公開データセットでの事前学習を取り入れて、例外的なDP画像データを生成する。
本稿では,事前学習データを慎重に選択する新しいDP画像合成手法PRIVIMAGEを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:04:53Z) - NaturalInversion: Data-Free Image Synthesis Improving Real-World
Consistency [1.1470070927586016]
実データを用いずに元のデータ分布とよく一致した画像を合成する新しいモデル逆変換法であるNaturalInversionを紹介する。
我々の画像は、視覚化と追加分析による以前の作業よりも、元のデータ分布に一貫性があることが示される。
論文 参考訳(メタデータ) (2023-06-29T03:43:29Z) - T-ADAF: Adaptive Data Augmentation Framework for Image Classification
Network based on Tensor T-product Operator [0.0]
本稿ではテンソルT-Product Operatorに基づくAdaptive Data Augmentation Frameworkを提案する。
1つの画像データを3倍にし、これら3つの画像から結果を得る。
数値実験により、我々のデータ拡張フレームワークは、元のニューラルネットワークモデルの性能を2%向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-07T08:30:44Z) - Visual Atoms: Pre-training Vision Transformers with Sinusoidal Waves [18.5408134000081]
フォーミュラ駆動型教師あり学習は, 変圧器の事前学習に有効な方法であることが示されている。
VisualAtom-21kはViT-Baseの事前トレーニングに使用されており、ImageNet-1kの微調整時にトップ1の精度は83.7%に達した。
静的データセットであるJFT-300Mとは異なり、合成データセットの品質は改善され続けている。
論文 参考訳(メタデータ) (2023-03-02T09:47:28Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。