Fugu-MT 論文翻訳(概要): Inducing Spatial Locality in Vision Transformers through the Training Protocol

論文の概要: Inducing Spatial Locality in Vision Transformers through the Training Protocol

arxiv url: http://arxiv.org/abs/2605.16390v1
Date: Mon, 11 May 2026 19:31:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 23:51:08.315861
Title: Inducing Spatial Locality in Vision Transformers through the Training Protocol
Title（参考訳）: トレーニングプロトコルによる視覚変換器の空間的局所性誘導
Authors: Eduardo Santiago Toledo, Asael Fabian Martínez,
Abstract要約: 本研究では,視覚変換器(ViT)の初期層における空間的局所性を,大規模な事前学習を伴わずに,スクラッチから学習できるかどうかを検討する。ベースラインプロトコルとModernプロトコル(AutoAugment/ColorJitter, CutMix, Label Smoothing)を3つのデータセットで比較する。 3つのデータセット全体にわたって、Modernプロトコルは、早期レイヤにおいてより局所的でより集中的な注意を喚起する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate whether the training protocol can induce spatial locality in the early layers of a Vision Transformer (ViT) trained from scratch, without large-scale pretraining. Keeping the architecture and optimization procedure fixed, we compare a Baseline protocol with a Modern protocol (AutoAugment/ColorJitter, CutMix, and Label Smoothing) on CIFAR-10, CIFAR-100, and Tiny-ImageNet, characterizing each attention head via Mean Attention Distance (MAD) and normalized entropy. Across all three datasets, the Modern protocol produces more local and more concentrated attention in early layers; on CIFAR-100, the minimum MAD drops from 0.316 (Baseline) to 0.008 (Modern). To identify the source of this effect, we conduct an ablation study on CIFAR-100 by adding or removing each component individually. The results identify CutMix as the determining component within our experiments: all conditions with CutMix exhibit MAD 0.024, while all conditions without CutMix remain at MAD 0.210. AutoAugment and Label Smoothing show no independent effect on locality. Taken together, these findings suggest that the pressure to classify from partial image regions, induced by CutMix, can promote the emergence of local attention in Vision Transformers.
Abstract（参考訳）: 本研究では,視覚変換器(ViT)の初期層における空間的局所性を,大規模な事前学習を伴わずに,スクラッチから学習できるかどうかを検討する。 CIFAR-10, CIFAR-100, Tiny-ImageNetにおけるベースラインプロトコルとModernプロトコル(AutoAugment/ColorJitter, CutMix, Label Smoothing)を比較し, 平均注意距離(MAD)と正規化エントロピーを特徴付ける。 CIFAR-100では、最小のMADは0.316(Baseline)から0.008(Modern)に低下する。この効果の出所を特定するため、各成分を個別に添加または除去することにより、CIFAR-100のアブレーション研究を行う。この結果から,CutMix の全ての条件は MAD 0.024 であり,CutMix を含まない条件は MAD 0.210 であることがわかった。 AutoAugment と Label Smoothing は局所性に独立した影響を示さない。これらの結果から,CutMixにより誘導される部分画像領域の分類に対する圧力が視覚変換器の局所的注意の出現を促進することが示唆された。

関連論文リスト

Differential Attention-Augmented BiomedCLIP with Asymmetric Focal Optimization for Imbalanced Multi-Label Video Capsule Endoscopy Classification [1.2246649738388389]
本研究は,ビデオカプセル内視鏡(VCE)のためのマルチラベル分類フレームワークを提案する。アーキテクチャと最適化レベルの戦略を組み合わせることで、Galarデータセットに固有の極端なクラス不均衡に対処する。
論文参考訳（メタデータ） (2026-03-18T16:04:50Z)
The Protocol Genome A Self Supervised Learning Framework from DICOM Headers [0.5076419064097734]
Protocol Genomeは、DICOMヘッダーから相関を学習する自己教師型学習システムである。また,CT,MRI,CXR,ベンダ間の校正やロバスト性も向上する。
論文参考訳（メタデータ） (2025-09-03T07:38:32Z)
SMMix: Self-Motivated Image Mixing for Vision Transformers [65.809376136455]
CutMixは視覚変換器(ViT)の性能と一般化能力を決定する重要な拡張戦略である既存のCutMixの変種は、より一貫性のある混合画像やより正確な混合ラベルを生成することでこの問題に対処している。本稿では,学習モデルによる画像とラベルの強調を動機づける,効率的かつ効果的な自己運動画像混合法を提案する。
論文参考訳（メタデータ） (2022-12-26T00:19:39Z)
360FusionNeRF: Panoramic Neural Radiance Fields with Joint Guidance [6.528382036284374]
ニューラル放射場(NeRF)に基づくパノラマ画像から360円の新規なビューを合成する方法を提案する。トレーニングプロセスの指導に幾何学的監督と意味的整合性を導入するための半教師付き学習フレームワークである360FusionNeRFを提案する。
論文参考訳（メタデータ） (2022-09-28T17:30:53Z)
TokenMix: Rethinking Image Mixing for Data Augmentation in Vision Transformers [36.630476419392046]
CutMixは、現代の畳み込みとトランスフォーマービジョンネットワークのトレーニングによく使われる、一般的な拡張テクニックである。本稿では,視覚変換器の性能向上のために,新しいデータ拡張手法であるTokenMixを提案する。
論文参考訳（メタデータ） (2022-07-18T07:08:29Z)
EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文参考訳（メタデータ） (2022-06-19T04:49:35Z)
MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文参考訳（メタデータ） (2022-03-02T04:20:59Z)
Attentive CutMix: An Enhanced Data Augmentation Approach for Deep Learning Based Image Classification [58.20132466198622]
そこで我々は,CutMixに基づく自然拡張拡張戦略であるAttentive CutMixを提案する。各トレーニングイテレーションにおいて、特徴抽出器から中間注意マップに基づいて最も記述性の高い領域を選択する。提案手法は単純かつ有効であり,実装が容易であり,ベースラインを大幅に向上させることができる。
論文参考訳（メタデータ） (2020-03-29T15:01:05Z)
Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文参考訳（メタデータ） (2020-03-11T17:59:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。