論文の概要: Joint rotational invariance and adversarial training of a dual-stream
Transformer yields state of the art Brain-Score for Area V4
- arxiv url: http://arxiv.org/abs/2203.06649v1
- Date: Tue, 8 Mar 2022 23:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 22:49:50.811643
- Title: Joint rotational invariance and adversarial training of a dual-stream
Transformer yields state of the art Brain-Score for Area V4
- Title(参考訳): 領域V4における二流変圧器の関節回転不変性と対向訓練による脳スコアの出力状態
- Authors: William Berrios, Arturo Deza
- Abstract要約: 両ストリーム変換器,CrossViT$textita la$ Chen et al. (2021) が,全視覚カテゴリーで平均2位となることを示す。
我々の現在のTransformerベースのモデルは、前面V1のようなモジュールを統合する生物学的にインスパイアされたCNN(ResNet50)よりも、V4、IT、ビヘイビアの領域で説明可能な分散を実現しています。
- 参考スコア(独自算出の注目度): 3.3504365823045044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern high-scoring models of vision in the brain score competition do not
stem from Vision Transformers. However, in this short paper, we provide
evidence against the unexpected trend of Vision Transformers (ViT) being not
perceptually aligned with human visual representations by showing how a
dual-stream Transformer, a CrossViT$~\textit{a la}$ Chen et al. (2021), under a
joint rotationally-invariant and adversarial optimization procedure yields 2nd
place in the aggregate Brain-Score 2022 competition averaged across all visual
categories, and currently (March 1st, 2022) holds the 1st place for the highest
explainable variance of area V4. In addition, our current Transformer-based
model also achieves greater explainable variance for areas V4, IT and Behaviour
than a biologically-inspired CNN (ResNet50) that integrates a frontal V1-like
computation module(Dapello et al.,2020). Our team was also the only entry in
the top-5 that shows a positive rank correlation between explained variance per
area and depth in the visual hierarchy.
Against our initial expectations, these results provide tentative support for
an $\textit{"All roads lead to Rome"}$ argument enforced via a joint
optimization rule even for non biologically-motivated models of vision such as
Vision Transformers.
- Abstract(参考訳): 現代の脳スコア競争における視覚のハイスケーリングモデルは、視覚トランスフォーマーに起因しない。
However, in this short paper, we provide evidence against the unexpected trend of Vision Transformers (ViT) being not perceptually aligned with human visual representations by showing how a dual-stream Transformer, a CrossViT$~\textit{a la}$ Chen et al. (2021), under a joint rotationally-invariant and adversarial optimization procedure yields 2nd place in the aggregate Brain-Score 2022 competition averaged across all visual categories, and currently (March 1st, 2022) holds the 1st place for the highest explainable variance of area V4.
さらに,本モデルでは,前部V1ライクな計算モジュール(Dapello et al.,2020)を統合した生物学的にインスパイアされたCNN(ResNet50)よりも,V4,IT,ビヘイビアの領域に説明可能な分散を実現する。
私たちのチームは、領域ごとの相違と視覚的階層の深さとの間に正のランク相関を示すトップ5の唯一のエントリーでした。
最初の期待に反して、これらの結果は、ビジョントランスフォーマーのような生物学的に動機づけられない視覚モデルであっても、共同最適化ルールによって強制される$\textit{"All Road led to Rome"の仮サポートを提供する。
関連論文リスト
- HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs [102.4965532024391]
Vision Transformer(ViT)とConvolution Neural Network(CNN)のハイブリッドディープモデルは、ビジョンタスクのための強力なバックボーンのクラスとして登場した。
高分解能入力に適した4段のViTから5段のViTにアップグレードしたHIgh-Resolution Inputs(HIRI-ViT)のハイブリッドバックボーンを提案する。
HiRI-ViTは448$times$448の入力でImageNetで84.3%の最高のTop-1精度を達成し、iFormer-Sの83.4%を224$timesで0.9%改善した。
論文 参考訳(メタデータ) (2024-03-18T17:34:29Z) - ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - ACC-UNet: A Completely Convolutional UNet model for the 2020s [2.7013801448234367]
ACC-UNet は完全に畳み込み型 UNet モデルであり、コンブネットの固有の帰納バイアスとトランスフォーマーの設計決定を両世界の長所から得ている。
ACC-UNetは、5つの異なる医用画像セグメンテーションベンチマークで評価され、一貫してコンブネット、トランスフォーマー、およびそれらのハイブリッドよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T21:39:43Z) - Reviving Shift Equivariance in Vision Transformers [12.720600348466498]
本稿では,視覚変換器モデルにシームレスに統合可能な適応型多相アンカーアルゴリズムを提案する。
我々のアルゴリズムは、ViTとその変種であるTwinsを、入力シフトに関して100%整合性を達成することができる。
論文 参考訳(メタデータ) (2023-06-13T00:13:11Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。