Fugu-MT 論文翻訳(概要): Deeper Inside Deep ViT

論文の概要: Deeper Inside Deep ViT

arxiv url: http://arxiv.org/abs/2508.04181v1
Date: Wed, 06 Aug 2025 08:08:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-07 20:09:22.614022
Title: Deeper Inside Deep ViT
Title（参考訳）: ディープVTの奥深く
Authors: Sungrae Hong,
Abstract要約: 局所環境において, ViT構造がどのように反応し, 訓練するかを検討する。また、トレーニングの不安定さを強調し、それを安定化するためのモデル修正も行います。本稿では,ViTを用いた画像生成アーキテクチャを提案し,ViTとViT-22Bのどちらが画像生成に適した構造であるかを検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There have been attempts to create large-scale structures in vision models similar to LLM, such as ViT-22B. While this research has provided numerous analyses and insights, our understanding of its practical utility remains incomplete. Therefore, we examine how this model structure reacts and train in a local environment. We also highlight the instability in training and make some model modifications to stabilize it. The ViT-22B model, trained from scratch, overall outperformed ViT in terms of performance under the same parameter size. Additionally, we venture into the task of image generation, which has not been attempted in ViT-22B. We propose an image generation architecture using ViT and investigate which between ViT and ViT-22B is a more suitable structure for image generation.
Abstract（参考訳）: ViT-22BのようなLLMに似た視覚モデルで大規模な構造を作る試みがある。この研究は多くの分析と洞察を提供してきたが、その実用性に対する我々の理解はいまだ不完全である。そこで本研究では,このモデル構造が局所環境下でどのように反応し,訓練するかを検討する。また、トレーニングの不安定さを強調し、それを安定化するためのモデル修正も行います。 ViT-22Bモデルはスクラッチから訓練され、同じパラメータサイズでの性能で全体的にViTを上回った。また,VT-22Bでは試みられていない画像生成の課題についても検討する。本稿では,ViTを用いた画像生成アーキテクチャを提案し,ViTとViT-22Bのどちらが画像生成に適した構造であるかを検討する。

関連論文リスト

ViT$^3$: Unlocking Test-Time Training in Vision [56.74014676094694]
テストタイムトレーニング(TTT)は、効率的なシーケンスモデリングのための有望な方向として登場した。本稿では,視覚的シーケンスモデリングのためのTTT設計の体系的研究について述べる。我々は、線形複雑性と並列化計算を実現する純粋なTTTアーキテクチャであるビジョンテストタイムトレーニング(ViT$3$)モデルで結論付ける。
論文参考訳（メタデータ） (2025-12-01T13:14:48Z)
A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文参考訳（メタデータ） (2024-06-10T09:48:13Z)
Scaling Vision Transformers to 22 Billion Parameters [140.67853929168382]
Vision Transformers (ViT) は画像とビデオのモデリングに同じアーキテクチャを導入したが、まだほぼ同じ程度に拡張されていない。本稿では,22Bパラメータ ViT (ViT-22B) の高効率かつ安定なトレーニング法を提案する。 ViT-22Bは、視界における"LLMライクな"スケーリングの可能性を示し、そこに到達するための重要なステップを提供する。
論文参考訳（メタデータ） (2023-02-10T18:58:21Z)
What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文参考訳（メタデータ） (2022-12-13T16:55:12Z)
When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。対人訓練にはプレトレーニングとSGDが必要であることが判明した。私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文参考訳（メタデータ） (2022-10-14T05:37:20Z)
Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。 As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。 As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-02-24T06:30:55Z)
A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文参考訳（メタデータ） (2021-11-30T05:01:02Z)
Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文参考訳（メタデータ） (2021-06-25T15:39:08Z)
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文参考訳（メタデータ） (2021-03-29T06:23:20Z)
DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文参考訳（メタデータ） (2021-03-22T14:32:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。