Fugu-MT 論文翻訳(概要): FlexiViT: One Model for All Patch Sizes

論文の概要: FlexiViT: One Model for All Patch Sizes

arxiv url: http://arxiv.org/abs/2212.08013v1
Date: Thu, 15 Dec 2022 18:18:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 15:50:10.032108
Title: FlexiViT: One Model for All Patch Sizes
Title（参考訳）: FlexiViT:すべてのパッチサイズのための1つのモデル
Authors: Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith, Xiaohua Zhai, Matthias Minderer, Michael Tschannen, Ibrahim Alabdulmohsin, Filip Pavetic
Abstract要約: ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
参考スコア（独自算出の注目度）: 100.52574011880571
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Transformers convert images to sequences by slicing them into patches. The size of these patches controls a speed/accuracy tradeoff, with smaller patches leading to higher accuracy at greater computational cost, but changing the patch size typically requires retraining the model. In this paper, we demonstrate that simply randomizing the patch size at training time leads to a single set of weights that performs well across a wide range of patch sizes, making it possible to tailor the model to different compute budgets at deployment time. We extensively evaluate the resulting model, which we call FlexiViT, on a wide range of tasks, including classification, image-text retrieval, open-world detection, panoptic segmentation, and semantic segmentation, concluding that it usually matches, and sometimes outperforms, standard ViT models trained at a single patch size in an otherwise identical setup. Hence, FlexiViT training is a simple drop-in improvement for ViT that makes it easy to add compute-adaptive capabilities to most models relying on a ViT backbone architecture. Code and pre-trained models are available at https://github.com/google-research/big_vision
Abstract（参考訳）: Vision Transformerは、画像をパッチにスライスすることでシーケンスに変換する。これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチは高い計算コストで高い精度をもたらすが、パッチサイズの変更は通常、モデルの再トレーニングを必要とする。本稿では、トレーニング時にパッチサイズをランダム化するだけで、広い範囲のパッチサイズでうまく動作する1組の重み付けが実現し、デプロイ時に異なる計算予算にモデルを調整できることを実証する。我々はFlexiViTと呼ばれる結果のモデルを、分類、画像テキスト検索、オープンワールド検出、パノプティックセグメンテーション、セマンティックセグメンテーションなど幅広いタスクで広範囲に評価し、通常は一致し、時には性能が良く、1つのパッチサイズでトレーニングされた標準のViTモデルと比較した。したがって、flexivitトレーニングはvitの簡単なドロップイン改善であり、vitバックボーンアーキテクチャに依存するほとんどのモデルに計算適応機能を追加しやすくする。コードと事前学習されたモデルはhttps://github.com/google-research/big_visionで入手できる。

関連論文リスト

Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文参考訳（メタデータ） (2025-05-29T17:50:34Z)
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More [34.12661784331014]
本稿では,パッチ方式による圧縮符号化のパラダイムによる情報損失について検討する。我々は広範囲にわたるパッチサイズスケーリング実験を行い、パッチ化における興味深いスケーリング法則を興奮的に観察する。副産物として、より小さいパッチでは、タスク固有のデコーダヘッドは、より密集した予測では重要でないことが分かる。
論文参考訳（メタデータ） (2025-02-06T03:01:38Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
$\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文参考訳（メタデータ） (2023-03-26T16:39:44Z)
Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文参考訳（メタデータ） (2022-11-03T13:19:23Z)
Accelerating Vision Transformer Training via a Patch Sampling Schedule [0.685316573653194]
我々は、パッチサンプリングスケジュール(PSS)の概念を導入する。 PSSは、トレーニング中にバッチ毎に使用するビジョントランスフォーマー(ViT)パッチの数を変える。 PSSを用いたトレーニングにより、ViTは推論中により広いパッチサンプリング範囲に対してより堅牢になる。
論文参考訳（メタデータ） (2022-08-19T19:16:46Z)
PatchDropout: Economizing Vision Transformers Using Patch Dropout [9.243684409949436]
入力画像パッチをランダムにドロップすることで、標準のViTモデルを高解像度で効率的に訓練できることを示す。我々はPatchDropoutを使って計算とメモリの5倍の節約と性能の向上を観察する。
論文参考訳（メタデータ） (2022-08-10T14:08:55Z)
Patches Are All You Need? [96.88889685873106]
ビジョントランスフォーマー(ViT)モデルは、いくつかの設定でパフォーマンスを上回る可能性がある。 ViTは、イメージの小さな領域を単一の入力機能にまとめるパッチ埋め込みを使用する必要がある。本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
論文参考訳（メタデータ） (2022-01-24T16:42:56Z)
So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文参考訳（メタデータ） (2021-04-22T09:05:09Z)
ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文参考訳（メタデータ） (2021-03-29T15:27:17Z)
Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。 T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文参考訳（メタデータ） (2021-01-28T13:25:28Z)
Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文参考訳（メタデータ） (2020-04-28T07:13:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。