論文の概要: Vision Transformers with Natural Language Semantics
- arxiv url: http://arxiv.org/abs/2402.17863v1
- Date: Tue, 27 Feb 2024 19:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:14:15.405244
- Title: Vision Transformers with Natural Language Semantics
- Title(参考訳): 自然言語意味論を用いた視覚トランスフォーマー
- Authors: Young Kyung Kim, J. Mat\'ias Di Martino, Guillermo Sapiro
- Abstract要約: 視覚変換器(ViT)には、自然言語処理(NLP)と異なり、基本的な意味情報がない。
セマンティック・ビジョン・トランスフォーマー (Semantic Vision Transformers, SViT) は, セマンティック・インフォメーションを利用したトランスフォーマモデルである。
SViTは意味情報を効果的に活用し、畳み込みニューラルネットワークを連想させる誘導バイアスを生み出す。
- 参考スコア(独自算出の注目度): 13.535916922328287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokens or patches within Vision Transformers (ViT) lack essential semantic
information, unlike their counterparts in natural language processing (NLP).
Typically, ViT tokens are associated with rectangular image patches that lack
specific semantic context, making interpretation difficult and failing to
effectively encapsulate information. We introduce a novel transformer model,
Semantic Vision Transformers (sViT), which leverages recent progress on
segmentation models to design novel tokenizer strategies. sViT effectively
harnesses semantic information, creating an inductive bias reminiscent of
convolutional neural networks while capturing global dependencies and
contextual information within images that are characteristic of transformers.
Through validation using real datasets, sViT demonstrates superiority over ViT,
requiring less training data while maintaining similar or superior performance.
Furthermore, sViT demonstrates significant superiority in out-of-distribution
generalization and robustness to natural distribution shifts, attributed to its
scale invariance semantic characteristic. Notably, the use of semantic tokens
significantly enhances the model's interpretability. Lastly, the proposed
paradigm facilitates the introduction of new and powerful augmentation
techniques at the token (or segment) level, increasing training data diversity
and generalization capabilities. Just as sentences are made of words, images
are formed by semantic objects; our proposed methodology leverages recent
progress in object segmentation and takes an important and natural step toward
interpretable and robust vision transformers.
- Abstract(参考訳): ViT(Vision Transformers)内のトークンやパッチには、自然言語処理(NLP)と異なり、基本的な意味情報がない。
通常、ViTトークンは、特定の意味的コンテキストを持たない長方形のイメージパッチと関連付けられ、解釈が難しく、情報を効果的にカプセル化できない。
本稿では,セグメンテーションモデルの最近の進歩を利用して新しいトークン化戦略を設計する,新しいトランスフォーマモデルSemantic Vision Transformers(sViT)を提案する。
svitはセマンティック情報を有効に活用し、畳み込みニューラルネットワークを思わせる帰納的バイアスを生成し、トランスフォーマーの特徴である画像内のグローバルな依存関係とコンテキスト情報をキャプチャする。
実際のデータセットを使用した検証を通じて、sViTはViTよりも優れており、類似や優れたパフォーマンスを維持しながら、トレーニングデータが少なくなる。
さらに、sViTは、そのスケール不変なセマンティック特性により、分布外一般化と自然分布シフトに対するロバスト性において大きな優位性を示す。
特にセマンティクストークンの使用はモデルの解釈性を大幅に向上させる。
最後に、提案されたパラダイムはトークン(あるいはセグメント)レベルで新しい強力な拡張技術の導入を促進し、トレーニングデータの多様性と一般化能力を高める。
文が単語でできているように、画像は意味オブジェクトによって形成され、提案手法はオブジェクトセグメンテーションの最近の進歩を活用し、解釈可能で堅牢な視覚変換器への重要な自然な一歩を踏み出す。
関連論文リスト
- VISIT: Visualizing and Interpreting the Semantic Information Flow of
Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。
LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。
対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文 参考訳(メタデータ) (2023-05-22T19:04:56Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Demystify Self-Attention in Vision Transformers from a Semantic
Perspective: Analysis and Application [21.161850569358776]
自己認識機構はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。
多くの既存の視覚変換器(ViT)は、単に視覚タスクに適応するためにNLPから固有のトランスフォーマー設計を施している。
本稿では,低レベル表現を中間レベル空間にマッピングする典型的な画像処理手法を提案する。
論文 参考訳(メタデータ) (2022-11-13T15:18:31Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。
本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。
実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文 参考訳(メタデータ) (2021-11-20T01:49:56Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - Taming Transformers for High-Resolution Image Synthesis [16.86600007830682]
トランスフォーマーはシーケンシャルデータで長距離インタラクションを学ぶように設計されている。
それらは局所的な相互作用を優先する誘導バイアスを含まない。
これは表現力があるが、高解像度画像のような長いシーケンスでは計算不可能である。
本稿では,CNNの誘導バイアスとトランスの表現力を組み合わせることで,高分解能画像のモデル化と合成が可能となることを示す。
論文 参考訳(メタデータ) (2020-12-17T18:57:28Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。