論文の概要: OAMixer: Object-aware Mixing Layer for Vision Transformers
- arxiv url: http://arxiv.org/abs/2212.06595v1
- Date: Tue, 13 Dec 2022 14:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:51:00.574888
- Title: OAMixer: Object-aware Mixing Layer for Vision Transformers
- Title(参考訳): OAMixer:ビジョントランスのためのオブジェクト対応混合層
- Authors: Hyunwoo Kang, Sangwoo Mo, Jinwoo Shin
- Abstract要約: オブジェクトラベルに基づいてパッチベースモデルのパッチ混合層を校正するOAMixerを提案する。
オブジェクト中心の表現を学習することにより、OAMixerは様々なパッチベースモデルの分類精度と背景ロバスト性を向上することを示した。
- 参考スコア(独自算出の注目度): 73.10651373341933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Patch-based models, e.g., Vision Transformers (ViTs) and Mixers, have shown
impressive results on various visual recognition tasks, alternating classic
convolutional networks. While the initial patch-based models (ViTs) treated all
patches equally, recent studies reveal that incorporating inductive bias like
spatiality benefits the representations. However, most prior works solely
focused on the location of patches, overlooking the scene structure of images.
Thus, we aim to further guide the interaction of patches using the object
information. Specifically, we propose OAMixer (object-aware mixing layer),
which calibrates the patch mixing layers of patch-based models based on the
object labels. Here, we obtain the object labels in unsupervised or
weakly-supervised manners, i.e., no additional human-annotating cost is
necessary. Using the object labels, OAMixer computes a reweighting mask with a
learnable scale parameter that intensifies the interaction of patches
containing similar objects and applies the mask to the patch mixing layers. By
learning an object-centric representation, we demonstrate that OAMixer improves
the classification accuracy and background robustness of various patch-based
models, including ViTs, MLP-Mixers, and ConvMixers. Moreover, we show that
OAMixer enhances various downstream tasks, including large-scale
classification, self-supervised learning, and multi-object recognition,
verifying the generic applicability of OAMixer
- Abstract(参考訳): パッチベースのモデル、例えばビジョントランスフォーマー(vits)やミキサーは、様々な視覚認識タスクで印象的な結果を示し、古典的な畳み込みネットワークを交代させた。
初期パッチベースモデル (vits) は全てのパッチを等しく扱ったが、近年の研究では、空間性のような帰納的バイアスを組み込むことが表現に効果があることが示されている。
しかし、ほとんどの先行作品はパッチの位置のみに注目し、画像のシーン構造を見渡している。
そこで,本稿では,対象情報を用いたパッチのインタラクションをさらに指導する。
具体的には、オブジェクトラベルに基づいてパッチベースモデルのパッチ混合層を校正するOAMixer(オブジェクト認識混合層)を提案する。
ここでは、教師なしまたは弱い教師なしのマナーでオブジェクトラベルを得る。つまり、追加のヒューマンアノテートコストは不要である。
オブジェクトラベルを使用すると、OAMixerは学習可能なスケールパラメータで再重み付けマスクを計算し、類似したオブジェクトを含むパッチの相互作用を強化し、パッチ混合層にマスクを適用する。
対象中心表現を学習することにより,vits,mlp-mixers,convmixerなどのパッチベースモデルの分類精度と背景ロバスト性が向上することを示す。
さらに、OAMixerは、大規模分類、自己教師付き学習、多目的認識など様々な下流タスクを強化し、OAMixerの汎用性を検証する。
関連論文リスト
- Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - MixPro: Data Augmentation with MaskMix and Progressive Attention
Labeling for Vision Transformer [17.012278767127967]
画像とラベル空間におけるMaskMixとProgressive Attention Labelingを提案する。
画像空間の観点から、パッチのようなグリッドマスクをベースとした2つのイメージを混合したMaskMixを設計する。
ラベル空間の観点からPALを設計し, 混合注目ラベルの注意重みを動的に重み付けするプログレッシブファクターを設計する。
論文 参考訳(メタデータ) (2023-04-24T12:38:09Z) - Use the Detection Transformer as a Data Augmenter [13.15197086963704]
DeMixは、シンプルだが非常に効果的なデータ拡張技術であるCutMix上に構築されている。
CutMixは、パッチを1つのイメージから別のイメージにカット&ペーストすることで、モデルのパフォーマンスを改善し、新しいイメージを生成する。
DeMixは、事前訓練されたDETRによって、セマンティックにリッチなパッチを精巧に選択する。
論文 参考訳(メタデータ) (2023-04-10T12:50:17Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - SMMix: Self-Motivated Image Mixing for Vision Transformers [65.809376136455]
CutMixは視覚変換器(ViT)の性能と一般化能力を決定する重要な拡張戦略である
既存のCutMixの変種は、より一貫性のある混合画像やより正確な混合ラベルを生成することでこの問題に対処している。
本稿では,学習モデルによる画像とラベルの強調を動機づける,効率的かつ効果的な自己運動画像混合法を提案する。
論文 参考訳(メタデータ) (2022-12-26T00:19:39Z) - Patches Are All You Need? [96.88889685873106]
ビジョントランスフォーマー(ViT)モデルは、いくつかの設定でパフォーマンスを上回る可能性がある。
ViTは、イメージの小さな領域を単一の入力機能にまとめるパッチ埋め込みを使用する必要がある。
本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
論文 参考訳(メタデータ) (2022-01-24T16:42:56Z) - TransMix: Attend to Mix for Vision Transformers [26.775918851867246]
視覚変換器のアテンションマップに基づいてラベルを混合するTransMixを提案する。
対応する入力画像がアテンションマップによって重み付けされた場合、ラベルの信頼性が大きくなる。
TransMixは、ImageNet分類に基づいて、様々なViTベースのモデルを継続的に改善する。
論文 参考訳(メタデータ) (2021-11-18T17:59:42Z) - SnapMix: Semantically Proportional Mixing for Augmenting Fine-grained
Data [124.95585891086894]
提案はSemantically Proportional Mixing(SnapMix)と呼ばれる
クラスアクティベーションマップ(CAM)を利用して、きめ細かいデータを強化する際にラベルノイズを低減します。
本手法は既存の混合型アプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2020-12-09T03:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。