Fugu-MT 論文翻訳(概要): Vision Transformers with Natural Language Semantics

論文の概要: Vision Transformers with Natural Language Semantics

arxiv url: http://arxiv.org/abs/2402.17863v1
Date: Tue, 27 Feb 2024 19:54:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 17:14:15.405244
Title: Vision Transformers with Natural Language Semantics
Title（参考訳）: 自然言語意味論を用いた視覚トランスフォーマー
Authors: Young Kyung Kim, J. Mat\'ias Di Martino, Guillermo Sapiro
Abstract要約: 視覚変換器(ViT)には、自然言語処理(NLP)と異なり、基本的な意味情報がない。セマンティック・ビジョン・トランスフォーマー (Semantic Vision Transformers, SViT) は, セマンティック・インフォメーションを利用したトランスフォーマモデルである。 SViTは意味情報を効果的に活用し、畳み込みニューラルネットワークを連想させる誘導バイアスを生み出す。
参考スコア（独自算出の注目度）: 13.535916922328287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tokens or patches within Vision Transformers (ViT) lack essential semantic information, unlike their counterparts in natural language processing (NLP). Typically, ViT tokens are associated with rectangular image patches that lack specific semantic context, making interpretation difficult and failing to effectively encapsulate information. We introduce a novel transformer model, Semantic Vision Transformers (sViT), which leverages recent progress on segmentation models to design novel tokenizer strategies. sViT effectively harnesses semantic information, creating an inductive bias reminiscent of convolutional neural networks while capturing global dependencies and contextual information within images that are characteristic of transformers. Through validation using real datasets, sViT demonstrates superiority over ViT, requiring less training data while maintaining similar or superior performance. Furthermore, sViT demonstrates significant superiority in out-of-distribution generalization and robustness to natural distribution shifts, attributed to its scale invariance semantic characteristic. Notably, the use of semantic tokens significantly enhances the model's interpretability. Lastly, the proposed paradigm facilitates the introduction of new and powerful augmentation techniques at the token (or segment) level, increasing training data diversity and generalization capabilities. Just as sentences are made of words, images are formed by semantic objects; our proposed methodology leverages recent progress in object segmentation and takes an important and natural step toward interpretable and robust vision transformers.
Abstract（参考訳）: ViT(Vision Transformers)内のトークンやパッチには、自然言語処理(NLP)と異なり、基本的な意味情報がない。通常、ViTトークンは、特定の意味的コンテキストを持たない長方形のイメージパッチと関連付けられ、解釈が難しく、情報を効果的にカプセル化できない。本稿では,セグメンテーションモデルの最近の進歩を利用して新しいトークン化戦略を設計する,新しいトランスフォーマモデルSemantic Vision Transformers(sViT)を提案する。 svitはセマンティック情報を有効に活用し、畳み込みニューラルネットワークを思わせる帰納的バイアスを生成し、トランスフォーマーの特徴である画像内のグローバルな依存関係とコンテキスト情報をキャプチャする。実際のデータセットを使用した検証を通じて、sViTはViTよりも優れており、類似や優れたパフォーマンスを維持しながら、トレーニングデータが少なくなる。さらに、sViTは、そのスケール不変なセマンティック特性により、分布外一般化と自然分布シフトに対するロバスト性において大きな優位性を示す。特にセマンティクストークンの使用はモデルの解釈性を大幅に向上させる。最後に、提案されたパラダイムはトークン(あるいはセグメント)レベルで新しい強力な拡張技術の導入を促進し、トレーニングデータの多様性と一般化能力を高める。文が単語でできているように、画像は意味オブジェクトによって形成され、提案手法はオブジェクトセグメンテーションの最近の進歩を活用し、解釈可能で堅牢な視覚変換器への重要な自然な一歩を踏み出す。

関連論文リスト

Advancements in Natural Language Processing: Exploring Transformer-Based Architectures for Text Understanding [10.484788943232674]
本稿では,BERT や GPT などのトランスフォーマーモデルの進歩を考察し,テキスト理解タスクにおける優れた性能に着目した。その結果、GLUEやSQuADのようなベンチマークでは、高い計算コストなどの課題はあるものの、F1スコアが90%を超えている。
論文参考訳（メタデータ） (2025-03-26T04:45:33Z)
Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文参考訳（メタデータ） (2025-01-31T11:55:17Z)
ULTra: Unveiling Latent Token Interpretability in Transformer Based Understanding [14.84547724351634]
本稿では,トランスフォーマーの埋め込みを解釈し,意味のある意味的パターンを明らかにする新しいフレームワークを提案する。ゼロショットの教師なしセマンティックセマンティックセグメンテーションを微調整なしで効果的に行うことができることを示す。提案手法は,COCO-Stuffデータセットでは67.2 %,mIoU32.9 %,PASCALVOCデータセットではmIoU51.9 %である。
論文参考訳（メタデータ） (2024-11-15T19:36:50Z)
VISIT: Visualizing and Interpreting the Semantic Information Flow of Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。 LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文参考訳（メタデータ） (2023-05-22T19:04:56Z)
Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。 DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文参考訳（メタデータ） (2023-03-27T15:21:43Z)
Demystify Self-Attention in Vision Transformers from a Semantic Perspective: Analysis and Application [21.161850569358776]
自己認識機構はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。多くの既存の視覚変換器(ViT)は、単に視覚タスクに適応するためにNLPから固有のトランスフォーマー設計を施している。本稿では,低レベル表現を中間レベル空間にマッピングする典型的な画像処理手法を提案する。
論文参考訳（メタデータ） (2022-11-13T15:18:31Z)
Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文参考訳（メタデータ） (2021-12-09T22:05:05Z)
Discrete Representations Strengthen Vision Transformer Robustness [43.821734467553554]
Vision Transformer (ViT) は、画像認識のための最先端アーキテクチャとして登場しつつある。本稿では,ベクトル量子化エンコーダによって生成された離散トークンを付加することにより,ViTの入力層に対する簡易かつ効果的なアーキテクチャ変更を提案する。実験結果から,4つのアーキテクチャ変種に離散表現を追加することで,7つのImageNetロバストネスベンチマークで最大12%のViTロバストネスが向上することが示された。
論文参考訳（メタデータ） (2021-11-20T01:49:56Z)
Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。 ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文参考訳（メタデータ） (2021-05-21T17:59:18Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)
On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文参考訳（メタデータ） (2021-03-29T14:48:24Z)
Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-20T17:25:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。