論文の概要: IBiT: Utilizing Inductive Biases to Create a More Data Efficient Attention Mechanism
- arxiv url: http://arxiv.org/abs/2509.22719v1
- Date: Wed, 24 Sep 2025 17:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.820417
- Title: IBiT: Utilizing Inductive Biases to Create a More Data Efficient Attention Mechanism
- Title(参考訳): IBiT: インダクティブビアーゼを使ってよりデータ効率の良いアテンションメカニズムを作る
- Authors: Adithya Giri,
- Abstract要約: 近年,トランスフォーマーベースのアーキテクチャがコンピュータビジョンアプリケーションの主要な手法となっている。
Transformerは、データセットのサイズに合わせて説明可能でスケール可能であるが、畳み込みニューラルネットワークの帰納バイアスは欠如している。
これらの帰納バイアスを学習マスクを通じて導入することで、視覚変換器は知識蒸留なしではるかに小さなデータセットで学習できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Transformer-based architectures have become the dominant method for Computer Vision applications. While Transformers are explainable and scale well with dataset size, they lack the inductive biases of Convolutional Neural Networks. While these biases may be learned on large datasets, we show that introducing these inductive biases through learned masks allow Vision Transformers to learn on much smaller datasets without Knowledge Distillation. These Transformers, which we call Inductively Biased Image Transformers (IBiT), are significantly more accurate on small datasets, while retaining the explainability Transformers.
- Abstract(参考訳): 近年,トランスフォーマーベースのアーキテクチャがコンピュータビジョンアプリケーションの主要な手法となっている。
Transformerは、データセットのサイズに合わせて説明可能でスケール可能であるが、畳み込みニューラルネットワークの帰納バイアスは欠如している。
これらのバイアスは大きなデータセットで学習されるかもしれないが、学習マスクを通じて誘導バイアスを導入することで、視覚変換者が知識蒸留なしではるかに小さなデータセットで学習できることが示される。
Inductively Biased Image Transformers (IBiT)と呼ぶこれらのトランスフォーマーは、説明可能性のあるトランスフォーマーを維持しながら、小さなデータセットよりもはるかに正確である。
関連論文リスト
- An Introduction to Transformers [23.915718146956355]
Transformerは、有用なシーケンスやデータポイントのセットを学ぶために使用できるニューラルネットワークコンポーネントである。
本稿では,トランスアーキテクチャの数学的,正確,直感的,クリーンな記述を目指す。
論文 参考訳(メタデータ) (2023-04-20T14:54:19Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。