論文の概要: Representation Learning with Adaptive Superpixel Coding
- arxiv url: http://arxiv.org/abs/2508.15959v1
- Date: Thu, 21 Aug 2025 20:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.188015
- Title: Representation Learning with Adaptive Superpixel Coding
- Title(参考訳): 適応超画素符号化による表現学習
- Authors: Mahmoud Khalil, Ahmad Khalil, Alioune Ngom,
- Abstract要約: 適応スーパーピクセル符号化(ASC)と呼ばれるトランスフォーマーに基づく自己教師型モデルを提案する。
我々のモデルの主な洞察は、固定サイズおよび非適応パッチパーティショニングに依存する従来のビジョントランスフォーマーの制限を克服することである。
提案手法は,提案手法が標準画像下流タスクベンチマークにおいて広く用いられている手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.22940141855172033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning vision models are typically tailored for specific modalities and often rely on domain-specific assumptions, such as the grid structures used by nearly all existing vision models. In this work, we propose a self-supervised model based on Transformers, which we call Adaptive Superpixel Coding (ASC). The key insight of our model is to overcome the limitations of traditional Vision Transformers, which depend on fixed-size and non-adaptive patch partitioning. Instead, ASC employs adaptive superpixel layers that dynamically adjust to the underlying image content. We analyze key properties of the approach that make it effective, and find that our method outperforms widely-used alternatives on standard image downstream task benchmarks.
- Abstract(参考訳): ディープラーニングビジョンモデルは通常、特定のモダリティに合わせて調整されており、ほとんどすべての既存のビジョンモデルで使用されるグリッド構造など、ドメイン固有の仮定に依存していることが多い。
本研究では,適応スーパーピクセル符号化(ASC)と呼ばれるトランスフォーマーに基づく自己教師型モデルを提案する。
我々のモデルの主な洞察は、固定サイズおよび非適応パッチパーティショニングに依存する従来のビジョントランスフォーマーの制限を克服することである。
代わりに、ASCは、基盤となる画像の内容に動的に調整するアダプティブなスーパーピクセル層を採用している。
提案手法は,提案手法が標準画像下流タスクベンチマークにおいて広く用いられている手法よりも優れていることを示す。
関連論文リスト
- Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。
提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。
ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。
本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。
本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。
これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文 参考訳(メタデータ) (2022-06-02T17:24:48Z) - Contextformer: A Transformer with Spatio-Channel Attention for Context
Modeling in Learned Image Compression [5.152019611975467]
本稿では,変換器を用いたコンテキストモデルであるContextformerを提案する。
我々は、現代の圧縮フレームワークのコンテキストモデルをContextformerに置き換え、広く使われているKodakイメージデータセット上でテストする。
実験の結果,VVCテストモデル (VVC) と比較すると,提案モデルでは最大10%の削減率が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-04T17:29:32Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - Adaptable Deformable Convolutions for Semantic Segmentation of Fisheye
Images in Autonomous Driving Systems [4.231909978425546]
標準画像に訓練されたCNNが魚眼画像に容易に適応できることを示した。
我々の適応プロトコルは主に、既存の層の上に変形可能な等価性を使用することで畳み込みのサポートを変更することに依存している。
論文 参考訳(メタデータ) (2021-02-19T22:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。