論文の概要: Learning Sparse Visual Representations via Spatial-Semantic Factorization
- arxiv url: http://arxiv.org/abs/2602.01905v1
- Date: Mon, 02 Feb 2026 10:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.066116
- Title: Learning Sparse Visual Representations via Spatial-Semantic Factorization
- Title(参考訳): 空間意味的因子化によるスパース視覚表現の学習
- Authors: Theodore Zhengde Zhao, Sid Kiblawi, Jianwei Yang, Naoto Usuyama, Reuben Tan, Noel C Codella, Tristan Naumann, Hoifung Poon, Mu Wei,
- Abstract要約: 自己教師付き学習(SSL)は、意味理解と画像再構成の根本的な対立に直面している。
本稿では,視覚的特徴を意味概念とその空間分布の低ランクな製品に分解するフレームワークSTELLARを紹介する。
この分解された形の下で16個のスパーストークンが同時に高品質な再構成(2.60 FID)をサポートし、高密度バックボーンのセマンティック性能(79.10% ImageNet精度)に適合することを示す。
- 参考スコア(独自算出の注目度): 37.169502692169196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) faces a fundamental conflict between semantic understanding and image reconstruction. High-level semantic SSL (e.g., DINO) relies on global tokens that are forced to be location-invariant for augmentation alignment, a process that inherently discards the spatial coordinates required for reconstruction. Conversely, generative SSL (e.g., MAE) preserves dense feature grids for reconstruction but fails to produce high-level abstractions. We introduce STELLAR, a framework that resolves this tension by factorizing visual features into a low-rank product of semantic concepts and their spatial distributions. This disentanglement allows us to perform DINO-style augmentation alignment on the semantic tokens while maintaining the precise spatial mapping in the localization matrix necessary for pixel-level reconstruction. We demonstrate that as few as 16 sparse tokens under this factorized form are sufficient to simultaneously support high-quality reconstruction (2.60 FID) and match the semantic performance of dense backbones (79.10% ImageNet accuracy). Our results highlight STELLAR as a versatile sparse representation that bridges the gap between discriminative and generative vision by strategically separating semantic identity from spatial geometry. Code available at https://aka.ms/stellar.
- Abstract(参考訳): 自己教師付き学習(SSL)は、意味理解と画像再構成の根本的な対立に直面している。
高レベルのセマンティックSSL(例:DINO)は、拡張アライメントのために位置不変なグローバルトークンに依存している。
逆に、生成的SSL(例: MAE)は、再構成のための高密度な特徴グリッドを保存するが、高レベルの抽象化を生成できない。
本稿では,視覚的特徴を意味概念とその空間分布の低ランクな積に分解することで,この緊張を解消するフレームワークSTELLARを紹介する。
このアンタングル化により,画素レベルの再構成に必要な局所化行列の正確な空間マッピングを維持しつつ,意味トークン上でDINOスタイルのアライメントアライメントを実行することができる。
この分解された形の下で16個のスパーストークンが同時に高品質な再構成(2.60 FID)をサポートし、高密度バックボーン(79.10% ImageNet精度)のセマンティック性能に適合することを示す。
その結果,STELLARは空間幾何学から意味的アイデンティティを戦略的に分離することにより,識別的・生成的ビジョンのギャップを埋める多目的スパース表現であることがわかった。
コードはhttps://aka.ms/stellar.comで公開されている。
関連論文リスト
- Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing [62.94394079771687]
急成長する傾向は、表現エンコーダの高次元特徴を生成的潜伏剤として採用することである。
生成タスクに理解指向のエンコーダ機能を適用するための体系的フレームワークを提案する。
提案手法は,テキスト・トゥ・イメージ(T2I)と画像編集タスクにおいて,最先端の再構築,収束の高速化,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2025-12-19T18:59:57Z) - Adapting Self-Supervised Representations as a Latent Space for Efficient Generation [18.746963205066688]
RepTokは、単一の連続潜在トークンを使用してイメージを表現する生成モデリングフレームワークである。
RepTokは、クラス条件のImageNet生成における競合的な結果を達成し、テキストと画像の合成に自然に拡張する。
論文 参考訳(メタデータ) (2025-10-16T12:43:03Z) - CoPatch: Zero-Shot Referring Image Segmentation by Leveraging Untapped Spatial Knowledge in CLIP [26.827036116024914]
textscCoPatchはゼロショットRISフレームワークで、テキストと画像の両方の空間表現を強化する。
また,textscCoPatchは, RefCOCO, RefCOCO+, RefCOCOg, PhraseCut (+ 2--7 mIoU) のゼロショットRISにおける空間接地を,追加の訓練を必要とせずに大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-27T04:12:10Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Spatial Latent Representations in Generative Adversarial Networks for
Image Generation [0.0]
StyleGAN2 に対して空間潜在空間の族を定義する。
我々の空間は画像操作や意味情報のエンコードに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-25T20:01:11Z) - Learning Aligned Cross-Modal Representation for Generalized Zero-Shot
Classification [17.177622259867515]
一般化ゼロショット分類(GZSC)のためのアラインド・クロスモーダル表現(adigned Cross-Modal Representations, ACMR)の学習による革新的オートエンコーダネットワークを提案する。
具体的には,学習型分類器によって導かれる潜在部分空間上でのクロスモーダルな潜在特徴のアライメントを強化するために,新しい視覚・セマンティックアライメント(VSA)法を提案する。
さらに,潜伏変数の識別能力を高めるとともに,潜伏変数が崩壊する可能性を低減するための新しい情報拡張モジュール (IEM) を提案する。
論文 参考訳(メタデータ) (2021-12-24T03:35:37Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。