Fugu-MT 論文翻訳(概要): Localformer: a Locality-Preserving Vision Transformer

論文の概要: Localformer: a Locality-Preserving Vision Transformer

arxiv url: http://arxiv.org/abs/2202.10240v5
Date: Sun, 23 Apr 2023 11:04:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 00:44:08.094675
Title: Localformer: a Locality-Preserving Vision Transformer
Title（参考訳）: Localformer: ローカル保存型ビジョントランス
Authors: Qingsong Zhao, Zhipeng Zhou, Yi Wang, Yu Qiao, Cairong Zhao
Abstract要約: Zigzag flattening (ZF) は、コンピュータビジョンにおいて行列を展開するためのデフォルトオプションとして一般的に使用される。視覚モデルに代わるHilbert flattening (HF) について検討する。我々は、視覚変換器(ViT)の浅い層における局所性バイアスの欠如の問題を軽減するためにHFを利用する。
参考スコア（独自算出の注目度）: 42.1069073073601
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zigzag flattening (ZF) is commonly used in computer vision as a default option to unfold matrices, \eg in patch slicing for Vision Transformer (ViT). However, when decomposing multi-scale-object web images, ZF cannot preserve the smoothness of local information well. To address this, we draw inspiration from Space-Filling Curves (SFC) and investigate Hilbert flattening (HF) as an alternative for visual models. We provide a comprehensive theoretical discussion and practical analysis, demonstrating the superiority of HF over other SFC in locality and multi-scale robustness. We leverage HF to alleviate the problem of the lack of locality bias in the shallow layers of ViT, which formulates our Localformer. Extensive experiments demonstrate that Localformer consistently improves performance for several common visual tasks. Additionally, upon inspection, we find that Localformer enhances representation learning and length extrapolation abilities of ViT.
Abstract（参考訳）: Zigzag flattening (ZF) は、コンピュータビジョンにおいて、ViT(Vision Transformer)のパッチスライシングにおいて、行列を展開するためのデフォルトオプションとして一般的に使用される。しかし、マルチスケールオブジェクトのWebイメージを分解する場合、ZFはローカル情報の滑らかさをよく維持できない。これを解決するために、スペースフィリング曲線(SFC)からインスピレーションを得て、視覚モデルの代替としてヒルベルト平坦化(HF)を調査する。局所性とマルチスケールロバスト性において他のSFCよりもHFの方が優れていることを示す総合的な理論的議論と実践的分析を提供する。我々はHFを利用して、VTの浅い層における局所性バイアスの欠如の問題を緩和し、ローカルフォーマーを定式化する。大規模な実験では、Localformerはいくつかの一般的な視覚タスクのパフォーマンスを一貫して改善している。さらに,検査の結果,LocalformerはViTの表現学習と長さ外挿能力を向上させることがわかった。

関連論文リスト

MCA-LLaVA: Manhattan Causal Attention for Reducing Hallucination in Large Vision-Language Models [25.406556604989607]
幻覚はLVLM(Large Vision Language Models)において重要な課題となる重要な要因として特定されたマルチモーダル特徴の不一致。 MCA-LLaVAは位置モデリングのための画像トークンの1次元配列順序と2次元空間位置を統合する。
論文参考訳（メタデータ） (2025-07-12T08:09:35Z)
REOrdering Patches Improves Vision Models [50.24865821590156]
パッチ順序がそのような設定におけるモデル性能に大きく影響していることが示される。本稿では,タスク最適パッチ順序を見つけるためのフレームワークであるREOrderを提案する。 Re Orderは、ImageNet-1K上の行マジョールの順序を最大3.01%改善し、世界の関数マップを13.35%改善した。
論文参考訳（メタデータ） (2025-05-29T17:59:30Z)
Vector Field Attention for Deformable Image Registration [9.852055065890479]
変形可能な画像登録は、固定画像と移動画像の間の非線形空間対応を確立する。既存のディープラーニングベースの手法では、ニューラルネットワークが特徴マップの位置情報をエンコードする必要がある。本稿では、位置対応の直接検索を可能にすることにより、既存のネットワーク設計の効率を高める新しいフレームワークであるベクトル場注意(VFA)を提案する。
論文参考訳（メタデータ） (2024-07-14T14:06:58Z)
Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。 VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文参考訳（メタデータ） (2024-06-23T20:00:20Z)
Towards Better Gradient Consistency for Neural Signed Distance Functions via Level Set Alignment [50.892158511845466]
レベルセットの並列性によって示される場の勾配一貫性が、推論精度に影響を及ぼす重要な要因であることを示す。そこで本研究では,次数集合の並列性を評価するためのレベルセットアライメント損失を提案する。
論文参考訳（メタデータ） (2023-05-19T11:28:05Z)
A Geometrically Constrained Point Matching based on View-invariant Cross-ratios, and Homography [2.050924050557755]
ビュー不変クロス比(CR)に基づく初期一致SIFTキーポイントの正当性検証のための幾何学的制約付きアルゴリズムを提案する。これらのキーポイントからペンタゴンをランダムに形成し、画像間の形状と位置をCRとマッチングすることにより、堅牢な平面領域推定を効率的に行うことができる。実験結果から,複数平面領域の複数シーンで良好な結果が得られることがわかった。
論文参考訳（メタデータ） (2022-11-06T01:55:35Z)
Neural Space-filling Curves [47.852964985588486]
画像の集合に対して文脈に基づくスキャン順序を推定するためのデータ駆動型手法を提案する。本研究は,グラフベースニューラルネットワークを用いて,画像のデータセットから画像の空間的コヒーレントな線形順序付けを学習する。画像圧縮などの下流アプリケーションでNeural SFCを使うことの利点を示す。
論文参考訳（メタデータ） (2022-04-18T17:59:01Z)
UltraSR: Spatial Encoding is a Missing Key for Implicit Image Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。 UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文参考訳（メタデータ） (2021-03-23T17:36:42Z)
Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文参考訳（メタデータ） (2021-03-19T03:55:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。