論文の概要: Rethinking the Zigzag Flattening for Image Reading
- arxiv url: http://arxiv.org/abs/2202.10240v1
- Date: Mon, 21 Feb 2022 13:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 12:41:58.210319
- Title: Rethinking the Zigzag Flattening for Image Reading
- Title(参考訳): 画像読解のためのZigzag Flatteningの再考
- Authors: Qingsong Zhao, Zhipeng Zhou, Shuguang Dou, Yangguang Li, Rui Lu, Yin
Wang, Cairong Zhao
- Abstract要約: zigzag flattening (ZF) は、視覚変換器 (ViT) で画像パッチを順序付けするためのデフォルトオプションとして一般的に使用される。
また,Hilbert fractal flattening (HF) をCVの配列順序付け法として検討し,ZFと対比した。
HFは、次元空間のマルチスケール変換を行う際に、空間的局所性を維持する上で他の曲線よりも優れていることが証明されている。
- 参考スコア(独自算出の注目度): 26.54419528531139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence ordering of word vector matters a lot to text reading, which has
been proven in natural language processing (NLP). However, the rule of
different sequence ordering in computer vision (CV) was not well explored,
e.g., why the "zigzag" flattening (ZF) is commonly utilized as a default option
to get the image patches ordering in vision transformers (ViTs). Notably, when
decomposing multi-scale images, the ZF could not maintain the invariance of
feature point positions. To this end, we investigate the Hilbert fractal
flattening (HF) as another method for sequence ordering in CV and contrast it
against ZF. The HF has proven to be superior to other curves in maintaining
spatial locality, when performing multi-scale transformations of dimensional
space. And it can be easily plugged into most deep neural networks (DNNs).
Extensive experiments demonstrate that it can yield consistent and significant
performance boosts for a variety of architectures. Finally, we hope that our
studies spark further research about the flattening strategy of image reading.
- Abstract(参考訳): 単語ベクトルのシーケンス順序付けは、自然言語処理 (nlp) で証明されたテキスト読み取りに非常に重要である。
しかし、コンピュータビジョン(CV)における異なるシーケンス順序付けの規則は、例えば、なぜ"zigzag"フラット化(ZF)がビジョントランスフォーマー(ViT)で順序付けされるイメージパッチを得るデフォルトオプションとして一般的に使用されるのか、よく研究されなかった。
特に、マルチスケール画像の分解時に、ZFは特徴点位置の不変性を維持できなかった。
この目的のために,Hilbertフラクタル平坦化法(HF)をCVの配列順序付け法として検討し,ZFと対比する。
HFは次元空間のマルチスケール変換を行う際に、空間的局所性を維持する上で他の曲線よりも優れていることが証明されている。
また、ほとんどのディープニューラルネットワーク(DNN)に簡単に接続できる。
広範な実験によって、さまざまなアーキテクチャに一貫性があり、大幅なパフォーマンス向上をもたらすことが示されている。
最後に、画像読取のフラット化戦略に関するさらなる研究が期待されている。
関連論文リスト
- Vector Field Attention for Deformable Image Registration [9.852055065890479]
変形可能な画像登録は、固定画像と移動画像の間の非線形空間対応を確立する。
既存のディープラーニングベースの手法では、ニューラルネットワークが特徴マップの位置情報をエンコードする必要がある。
本稿では、位置対応の直接検索を可能にすることにより、既存のネットワーク設計の効率を高める新しいフレームワークであるベクトル場注意(VFA)を提案する。
論文 参考訳(メタデータ) (2024-07-14T14:06:58Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Towards Better Gradient Consistency for Neural Signed Distance Functions
via Level Set Alignment [50.892158511845466]
レベルセットの並列性によって示される場の勾配一貫性が、推論精度に影響を及ぼす重要な要因であることを示す。
そこで本研究では,次数集合の並列性を評価するためのレベルセットアライメント損失を提案する。
論文 参考訳(メタデータ) (2023-05-19T11:28:05Z) - A Geometrically Constrained Point Matching based on View-invariant
Cross-ratios, and Homography [2.050924050557755]
ビュー不変クロス比(CR)に基づく初期一致SIFTキーポイントの正当性検証のための幾何学的制約付きアルゴリズムを提案する。
これらのキーポイントからペンタゴンをランダムに形成し、画像間の形状と位置をCRとマッチングすることにより、堅牢な平面領域推定を効率的に行うことができる。
実験結果から,複数平面領域の複数シーンで良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-11-06T01:55:35Z) - Neural Space-filling Curves [47.852964985588486]
画像の集合に対して文脈に基づくスキャン順序を推定するためのデータ駆動型手法を提案する。
本研究は,グラフベースニューラルネットワークを用いて,画像のデータセットから画像の空間的コヒーレントな線形順序付けを学習する。
画像圧縮などの下流アプリケーションでNeural SFCを使うことの利点を示す。
論文 参考訳(メタデータ) (2022-04-18T17:59:01Z) - UltraSR: Spatial Encoding is a Missing Key for Implicit Image
Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。
空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。
UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2021-03-23T17:36:42Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。