論文の概要: Win-Win: Training High-Resolution Vision Transformers from Two Windows
- arxiv url: http://arxiv.org/abs/2310.00632v2
- Date: Fri, 22 Mar 2024 15:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:49:51.964395
- Title: Win-Win: Training High-Resolution Vision Transformers from Two Windows
- Title(参考訳): Win-Win: 2つのWindowsから高解像度ビジョン変換器をトレーニング
- Authors: Vincent Leroy, Jerome Revaud, Thomas Lucas, Philippe Weinzaepfel,
- Abstract要約: 本稿では,高解像度ビジョントランスの効率的なトレーニングと推論のための新しい手法を提案する。
鍵となる原則は、トレーニング中の高解像度入力の大部分をマスクし、N個のランダムウィンドウだけを保持することである。
回転埋め込みなどの相対的な位置埋め込みを利用する場合,この戦略が有効であることを示す。
- 参考スコア(独自算出の注目度): 15.38882406329146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have become the standard in state-of-the-art vision architectures, achieving impressive performance on both image-level and dense pixelwise tasks. However, training vision transformers for high-resolution pixelwise tasks has a prohibitive cost. Typical solutions boil down to hierarchical architectures, fast and approximate attention, or training on low-resolution crops. This latter solution does not constrain architectural choices, but it leads to a clear performance drop when testing at resolutions significantly higher than that used for training, thus requiring ad-hoc and slow post-processing schemes. In this paper, we propose a novel strategy for efficient training and inference of high-resolution vision transformers. The key principle is to mask out most of the high-resolution inputs during training, keeping only N random windows. This allows the model to learn local interactions between tokens inside each window, and global interactions between tokens from different windows. As a result, the model can directly process the high-resolution input at test time without any special trick. We show that this strategy is effective when using relative positional embedding such as rotary embeddings. It is 4 times faster to train than a full-resolution network, and it is straightforward to use at test time compared to existing approaches. We apply this strategy to three dense prediction tasks with high-resolution data. First, we show on the task of semantic segmentation that a simple setting with 2 windows performs best, hence the name of our method: Win-Win. Second, we confirm this result on the task of monocular depth prediction. Third, we further extend it to the binocular task of optical flow, reaching state-of-the-art performance on the Spring benchmark that contains Full-HD images with an order of magnitude faster inference than the best competitor.
- Abstract(参考訳): トランスフォーマーは最先端のビジョンアーキテクチャの標準となり、画像レベルと高密度のピクセルワイドタスクの両方で優れたパフォーマンスを実現している。
しかし,高分解能画素ワイドタスクのためのトレーニング用視覚変換器は,コストを抑えることができる。
典型的なソリューションは階層的なアーキテクチャ、高速で近似的な注意、低解像度の作物の訓練に沸騰する。
この後者のソリューションはアーキテクチャ上の選択を制約しないが、トレーニングで使用されるものよりもはるかに高い解像度でテストすると、明らかにパフォーマンスが低下し、アドホックで遅い後処理のスキームが必要になる。
本稿では,高解像度ビジョントランスの効率的なトレーニングと推論のための新しい手法を提案する。
鍵となる原則は、トレーニング中の高解像度入力の大部分をマスクし、N個のランダムウィンドウだけを保持することである。
これにより、各ウィンドウ内のトークン間のローカルインタラクションと、異なるウィンドウからのトークン間のグローバルインタラクションを学習することができる。
その結果、モデルは特別なトリックを伴わずに、テスト時に高解像度入力を直接処理できる。
回転埋め込みなどの相対的な位置埋め込みを利用する場合,この戦略が有効であることを示す。
フルレゾリューションネットワークよりもトレーニングが4倍速く、既存のアプローチと比べてテスト時に簡単に使用できます。
この戦略を高解像度データを用いた3つの密集予測タスクに適用する。
まず、セマンティックセグメンテーションのタスクにおいて、2つのウィンドウを持つ単純な設定が最適であることを示す。
次に, 単分子深度予測の課題について, この結果を確認した。
第3に、光学的フローの双眼鏡タスクにさらに拡張し、最高の競合相手よりもはるかに高速な推測でフルHD画像を含むSpringベンチマークで最先端のパフォーマンスに達する。
関連論文リスト
- CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Total Variation Optimization Layers for Computer Vision [130.10996341231743]
コンピュータビジョンのためのレイヤとして,全変動(TV)最小化を提案する。
画像処理における全変動の成功により、我々は、層としてのテレビがディープネットに有用な帰納バイアスを与えるという仮説を立てた。
本仮説は,画像分類,弱教師付き物体の局所化,エッジ保存平滑化,エッジ検出,画像復調という5つのコンピュータビジョンタスクについて検討する。
論文 参考訳(メタデータ) (2022-04-07T17:59:27Z) - Enhanced Performance of Pre-Trained Networks by Matched Augmentation
Distributions [10.74023489125222]
列車-テストの分散シフトに対処するための簡単な解を提案する。
テスト画像に対して、複数のランダムな作物に対して結果を合成する。
これは列車の時間拡張と一致するだけでなく、入力画像の完全なカバレッジも提供する。
論文 参考訳(メタデータ) (2022-01-19T22:33:00Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference [25.63398340113755]
高速システムにおける精度と効率のトレードオフを最適化する画像分類アーキテクチャのファミリーを設計します。
視覚変換器に位置情報を統合する新しい手法である注意バイアスを導入する。
全体として、LeViTは、スピード/精度のトレードオフに関して、既存のコンベットとビジョントランスを大幅に上回ります。
論文 参考訳(メタデータ) (2021-04-02T16:29:57Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。