論文の概要: HEAL-SWIN: A Vision Transformer On The Sphere
- arxiv url: http://arxiv.org/abs/2307.07313v2
- Date: Wed, 8 May 2024 15:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 19:30:12.962713
- Title: HEAL-SWIN: A Vision Transformer On The Sphere
- Title(参考訳): HEAL-SWIN: 球面の視覚変換器
- Authors: Oscar Carlsson, Jan E. Gerken, Hampus Linander, Heiner Spieß, Fredrik Ohlsson, Christoffer Petersson, Daniel Persson,
- Abstract要約: 高解像度の広角魚眼画像は、自律運転などのロボティクス応用においてますます重要になっている。
天体物理学や宇宙論で用いられる高度に均一な階層的等角領域等緯線線格子を組み合わせたHEAL-SWIN変換器を提案する。
HEAL-SWINでは、HEALPixグリッドのネスト構造を用いてSWIN変換器のパッチ処理とウィンドウ処理を行い、最小計算オーバーヘッドで球面表現を処理できる。
- 参考スコア(独自算出の注目度): 4.379414115481346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution wide-angle fisheye images are becoming more and more important for robotics applications such as autonomous driving. However, using ordinary convolutional neural networks or vision transformers on this data is problematic due to projection and distortion losses introduced when projecting to a rectangular grid on the plane. We introduce the HEAL-SWIN transformer, which combines the highly uniform Hierarchical Equal Area iso-Latitude Pixelation (HEALPix) grid used in astrophysics and cosmology with the Hierarchical Shifted-Window (SWIN) transformer to yield an efficient and flexible model capable of training on high-resolution, distortion-free spherical data. In HEAL-SWIN, the nested structure of the HEALPix grid is used to perform the patching and windowing operations of the SWIN transformer, enabling the network to process spherical representations with minimal computational overhead. We demonstrate the superior performance of our model on both synthetic and real automotive datasets, as well as a selection of other image datasets, for semantic segmentation, depth regression and classification tasks. Our code is publicly available at https://github.com/JanEGerken/HEAL-SWIN.
- Abstract(参考訳): 高解像度の広角魚眼画像は、自律運転などのロボティクス応用においてますます重要になっている。
しかし、このデータ上で通常の畳み込みニューラルネットワークや視覚変換器を用いることは、平面上の矩形格子に投影する際に生じる投影や歪みの損失によって問題となる。
天体物理学や宇宙論で用いられる高度に均一な階層的等方性領域等方性幾何格子 (HEALPix) と階層的シフト・ウィンドウ変換器 (SWIN) を組み合わせることで、高分解能で歪みのない球面データをトレーニングできる効率的で柔軟なモデルを生成する。
HEAL-SWINでは、HEALPixグリッドのネスト構造を用いてSWIN変換器のパッチ処理とウィンドウ処理を行い、最小計算オーバーヘッドで球面表現を処理できる。
合成および実自動車のデータセットと、セマンティックセグメンテーション、深度回帰、分類タスクのための他の画像データセットの選択において、我々のモデルの優れた性能を実証する。
私たちのコードはhttps://github.com/JanEGerken/HEAL-SWIN.comで公開されています。
関連論文リスト
- DarSwin-Unet: Distortion Aware Encoder-Decoder Architecture [13.412728770638465]
広角レンズの歪みに適応するエンコーダデコーダモデルを提案する。
分類タスクのみを実行するオリジナルのモデルとは対照的に,画素レベルのタスク用に設計されたU-NetアーキテクチャDarSwin-Unetを導入する。
提案手法により,広角魚眼画像における画素レベルのタスクを処理できるモデル能力が向上し,実世界への応用がより効果的になる。
論文 参考訳(メタデータ) (2024-07-24T14:52:18Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Conditional Generation of Synthetic Geospatial Images from Pixel-level
and Feature-level Inputs [0.0]
画素レベル条件 (PLC) と特徴レベル条件 (FLC) を同時に条件付きで合成する条件生成モデル VAE-Info-cGAN を提案する。
提案モデルでは,道路網の時間的表現のみを条件に,異なる地理的位置をまたいだ様々な形態のマクロアグリゲーションを高精度に生成することができる。
論文 参考訳(メタデータ) (2021-09-11T06:58:19Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - VAE-Info-cGAN: Generating Synthetic Images by Combining Pixel-level and
Feature-level Geospatial Conditional Inputs [0.0]
画素レベル(PLC)と特徴レベル(FLC)を同時に条件付けした意味的リッチな画像を合成するための条件生成モデルを提案する。
GPSデータセットを用いた実験では,提案モデルが地理的に異なる場所にまたがる様々な形態のマクロアグリゲーションを正確に生成できることが示されている。
論文 参考訳(メタデータ) (2020-12-08T03:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。