論文の概要: RAViT: Resolution-Adaptive Vision Transformer
- arxiv url: http://arxiv.org/abs/2602.24159v1
- Date: Fri, 27 Feb 2026 16:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.517146
- Title: RAViT: Resolution-Adaptive Vision Transformer
- Title(参考訳): RAViT:解像度適応型視覚変換器
- Authors: Martial Guidez, Stefan Duffner, Christophe Garcia,
- Abstract要約: 視覚変換器は、最近コンピュータビジョンのブレークスルーを行い、多くのアプリケーションにおいて精度の点で優れた性能を示している。
同一画像の複数コピーで動作するマルチブランチネットワークに基づくRAViTと呼ばれる画像分類のための新しいフレームワークを提案する。
我々のフレームワークには、我々のモデルを適応させる早期終了メカニズムが含まれており、実行時に精度と計算コストの適切なトレードオフを選択することができる。
- 参考スコア(独自算出の注目度): 1.5708535232255896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have recently made a breakthrough in computer vision showing excellent performance in terms of precision for numerous applications. However, their computational cost is very high compared to alternative approaches such as Convolutional Neural Networks. To address this problem, we propose a novel framework for image classification called RAViT based on a multi-branch network that operates on several copies of the same image with different resolutions to reduce the computational cost while preserving the overall accuracy. Furthermore, our framework includes an early exit mechanism that makes our model adaptive and allows to choose the appropriate trade-off between accuracy and computational cost at run-time. For example in a two-branch architecture, the original image is first resized to reduce its resolution, then a prediction is performed on it using a first transformer and the resulting prediction is reused together with the original-size image to perform a final prediction on a second transformer with less computation than a classical Vision transformer architecture. The early-exit process allows the model to make a final prediction at intermediate branches, saving even more computation. We evaluated our approach on CIFAR-10, Tiny ImageNet, and ImageNet. We obtained an equivalent accuracy to the classical Vision transformer model with only around 70% of FLOPs.
- Abstract(参考訳): 視覚変換器は、最近コンピュータビジョンのブレークスルーを行い、多くのアプリケーションにおいて精度の点で優れた性能を示している。
しかし、その計算コストは畳み込みニューラルネットワークのような他のアプローチと比較して非常に高い。
そこで我々は,RAViTと呼ばれる画像分類のための新しいフレームワークを提案する。このフレームワークは,画像の複数のコピーを異なる解像度で動作させて,全体の精度を保ちながら計算コストを低減させるマルチブランチネットワークである。
さらに、我々のフレームワークは、我々のモデルを適応させ、実行時に精度と計算コストの適切なトレードオフを選択することができる早期終了メカニズムを含んでいる。
例えば、2ブランチアーキテクチャでは、元の画像をまず解像度を小さくするために再サイズし、次に第1の変換器を用いて予測を行い、その結果の予測を原サイズの画像とともに再利用し、古典的なビジョン変換器アーキテクチャよりも少ない計算で第2の変換器上で最終的な予測を行う。
早期終了プロセスにより、モデルは中間ブランチで最終的な予測を行うことができ、より多くの計算を節約できる。
CIFAR-10, Tiny ImageNet, ImageNetについて検討した。
FLOPの約70%で従来のビジョントランスモデルと同等の精度を得ることができた。
関連論文リスト
- Multi-scale Image Super Resolution with a Single Auto-Regressive Model [40.77470215283583]
視覚的自己回帰(VAR)モデリングの最近の進歩を利用して、画像超解像(ISR)に取り組む。
我々の知る限りでは、量子化器が様々なスケールで意味的に一貫した残留を強制するために訓練されたのはこれが初めてである。
本モデルでは, LR画像と超解像を, 1回の前方通過で, 目標値の半値と全値でデノマイズすることができる。
論文 参考訳(メタデータ) (2025-06-05T13:02:23Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。