論文の概要: A 2D Semantic-Aware Position Encoding for Vision Transformers
- arxiv url: http://arxiv.org/abs/2505.09466v1
- Date: Wed, 14 May 2025 15:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.509327
- Title: A 2D Semantic-Aware Position Encoding for Vision Transformers
- Title(参考訳): 視覚変換器の2次元意味認識位置符号化
- Authors: Xi Chen, Shiyang Zhou, Muqi Huang, Jiaxu Feng, Yun Xiong, Kun Zhou, Biao Yang, Yuhui Zhang, Huishuai Bao, Sijia Peng, Chuan Li, Feng Shi,
- Abstract要約: ビジョントランスフォーマーは、コンピュータビジョンタスクにおいて、長距離依存と自己注意を通してコンテキスト関係をキャプチャする能力により、大きな利点を示してきた。
既存の位置符号化技術は、主に自然言語処理から借用されているが、画像パッチ間のセマンティック・アウェアな位置関係を効果的に捉えられなかった。
絶対位置符号化(英語版)や相対位置符号化(英語版)のような伝統的なアプローチは、主に1次元線形位置関係(しばしば遠方でも文脈的に関連付けられたパッチ間の意味的類似性)に焦点を当てている。
- 参考スコア(独自算出の注目度): 32.86183384267028
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision transformers have demonstrated significant advantages in computer vision tasks due to their ability to capture long-range dependencies and contextual relationships through self-attention. However, existing position encoding techniques, which are largely borrowed from natural language processing, fail to effectively capture semantic-aware positional relationships between image patches. Traditional approaches like absolute position encoding and relative position encoding primarily focus on 1D linear position relationship, often neglecting the semantic similarity between distant yet contextually related patches. These limitations hinder model generalization, translation equivariance, and the ability to effectively handle repetitive or structured patterns in images. In this paper, we propose 2-Dimensional Semantic-Aware Position Encoding ($\text{SaPE}^2$), a novel position encoding method with semantic awareness that dynamically adapts position representations by leveraging local content instead of fixed linear position relationship or spatial coordinates. Our method enhances the model's ability to generalize across varying image resolutions and scales, improves translation equivariance, and better aggregates features for visually similar but spatially distant patches. By integrating $\text{SaPE}^2$ into vision transformers, we bridge the gap between position encoding and perceptual similarity, thereby improving performance on computer vision tasks.
- Abstract(参考訳): ビジョントランスフォーマーは、コンピュータビジョンタスクにおいて、長距離依存と自己注意を通してコンテキスト関係をキャプチャする能力により、大きな利点を示してきた。
しかし、自然言語処理から大きく借用されている既存の位置符号化技術は、画像パッチ間の意味認識位置関係を効果的に捉えることができない。
絶対位置符号化(英語版)や相対位置符号化(英語版)のような伝統的なアプローチは、主に1次元線形位置関係に焦点を合わせており、しばしば遠方の、文脈的に関連付けられたパッチ間の意味的類似性を無視している。
これらの制限は、モデル一般化、翻訳同値、画像内の反復パターンや構造化パターンを効果的に扱う能力を妨げる。
本稿では,固定された線形位置関係や空間座標の代わりに局所的コンテンツを活用することで,位置表現を動的に適応する意味認識を持つ新しい位置符号化手法である2次元意味認識位置符号化($\text{SaPE}^2$)を提案する。
提案手法は,様々な画像解像度とスケールをまたいでモデルを一般化する能力を高め,翻訳の等価性を向上し,視覚的に類似しているが空間的に離れたパッチの集合性を向上する。
視覚変換器に$\text{SaPE}^2$を統合することにより、位置符号化と知覚的類似性の間のギャップを埋め、コンピュータビジョンタスクの性能を向上させる。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Smooth image-to-image translations with latent space interpolations [64.8170758294427]
マルチドメインイメージ・トゥ・イメージ(I2I)変換は、ターゲットドメインのスタイルに応じてソースイメージを変換することができる。
我々の正規化技術は、最先端のI2I翻訳を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2022-10-03T11:57:30Z) - A Multi-level Alignment Training Scheme for Video-and-Language Grounding [9.866172676211905]
優れたマルチモーダルエンコーダは、入力のセマンティクスを適切にキャプチャし、それらを共有機能空間にエンコードできるべきです。
符号化プロセスを直接整形する多段階アライメントトレーニング手法を開発した。
筆者らのフレームワークは,複数のビデオQAおよび検索データセット上で,過去の最先端技術に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-04-22T21:46:52Z) - SAC-GAN: Structure-Aware Image-to-Image Composition for Self-Driving [18.842432515507035]
自動運転車のための画像拡張のための構成的アプローチを提案する。
オブジェクトイメージから収穫パッチとして表現されたオブジェクトを、バックグラウンドシーンイメージにシームレスに構成するように訓練された、エンドツーエンドのニューラルネットワークである。
合成画像の品質, 構成性, 一般化性の観点から, 我々のネットワーク, SAC-GAN による構造認識合成の評価を行った。
論文 参考訳(メタデータ) (2021-12-13T12:24:50Z) - Global and Local Alignment Networks for Unpaired Image-to-Image
Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。
既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。
我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。
本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文 参考訳(メタデータ) (2021-11-19T18:01:54Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Code-Aligned Autoencoders for Unsupervised Change Detection in
Multimodal Remote Sensing Images [18.133760118780128]
畳み込み型オートエンコーダを用いた画像翻訳は、最近、バイテンポラル衛星画像におけるマルチモーダル変化検出のアプローチとして使われている。
主な課題は、変換関数の学習に対する変更画素の寄与を減らすことで、コード空間のアライメントである。
本稿では,ドメイン固有親和性行列が入力時に取得した関係画素情報を抽出し,これを用いてコード空間のアライメントを強制する手法を提案する。
論文 参考訳(メタデータ) (2020-04-15T11:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。