論文の概要: SPoT: Subpixel Placement of Tokens in Vision Transformers
- arxiv url: http://arxiv.org/abs/2507.01654v1
- Date: Wed, 02 Jul 2025 12:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.231394
- Title: SPoT: Subpixel Placement of Tokens in Vision Transformers
- Title(参考訳): SPoT:視覚変換器におけるトークンのサブピクセル配置
- Authors: Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera,
- Abstract要約: 視覚変換器は自然にスパーシリティを許容するが、標準的なトークン化手法は個々のパッチグリッドに特徴を限定する。
本稿では,トークンを画像内に連続的に配置する新しいトークン化戦略であるサブピクセル・プレースメント・オブ・トークン(SPoT)を提案する。
- 参考スコア(独自算出の注目度): 5.58104332383007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers naturally accommodate sparsity, yet standard tokenization methods confine features to discrete patch grids. This constraint prevents models from fully exploiting sparse regimes, forcing awkward compromises. We propose Subpixel Placement of Tokens (SPoT), a novel tokenization strategy that positions tokens continuously within images, effectively sidestepping grid-based limitations. With our proposed oracle-guided search, we uncover substantial performance gains achievable with ideal subpixel token positioning, drastically reducing the number of tokens necessary for accurate predictions during inference. SPoT provides a new direction for flexible, efficient, and interpretable ViT architectures, redefining sparsity as a strategic advantage rather than an imposed limitation.
- Abstract(参考訳): ビジョントランスフォーマーは自然にスパーシリティに適合するが、標準的なトークン化メソッドは個々のパッチグリッドに特徴を限定する。
この制約は、モデルがスパースレジームを完全に活用することを防ぎ、厄介な妥協を強要する。
本稿では,画像内にトークンを連続的に配置する新しいトークン化戦略であるサブピクセル・プレースメント・オブ・トークン(SPoT)を提案する。
提案したオラクル誘導探索により,推定中の正確な予測に必要なトークンの数を劇的に減らし,理想的なサブピクセルトークン位置決めが可能となった。
SPoTは、柔軟性、効率的、解釈可能なViTアーキテクチャのための新しい方向性を提供する。
関連論文リスト
- End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Superpixel Tokenization for Vision Transformers: Preserving Semantic Integrity in Visual Tokens [38.31045722878938]
我々は、Vision Transformerのグリッドベースのトークン化をスーパーピクセルトークン化に置き換えることを提案する。
既存のフレームワークとの強い互換性を示すアプローチは、様々な下流タスクにおけるViTの精度と堅牢性を高める。
論文 参考訳(メタデータ) (2024-12-06T00:38:36Z) - A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。