論文の概要: SPAR: Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2604.02252v1
- Date: Thu, 02 Apr 2026 16:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.923944
- Title: SPAR: Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation
- Title(参考訳): SPAR: オープンボキャブラリセグメンテーションのためのシングルパスオンリゾリューションVT
- Authors: Naomi Kombol, Ivan Martinović, Siniša Šegvić, Giorgos Tolias,
- Abstract要約: 基礎的な視覚変換器(ViT)は、きめ細かい空間的理解を必要とするタスクにおいて、限られた効果を有する。
SPAR: Single-Pass Any-Resolution ViTは高分解能高密度特徴抽出器である。
微弱なスライドウインドウ教師の空間的推論能力をシングルパスの学生に蒸留する。
- 参考スコア(独自算出の注目度): 7.958480535537743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundational Vision Transformers (ViTs) have limited effectiveness in tasks requiring fine-grained spatial understanding, due to their fixed pre-training resolution and inherently coarse patch-level representations. These challenges are especially pronounced in dense prediction scenarios, such as open-vocabulary segmentation with ViT-based vision-language models, where high-resolution inputs are essential for accurate pixel-level reasoning. Existing approaches typically process large-resolution images using a sliding-window strategy at the pre-training resolution. While this improves accuracy through finer strides, it comes at a significant computational cost. We introduce SPAR: Single-Pass Any-Resolution ViT, a resolution-agnostic dense feature extractor designed for efficient high-resolution inference. We distill the spatial reasoning capabilities of a finely-strided, sliding-window teacher into a single-pass student using a feature regression loss, without requiring architectural changes or pixel-level supervision. Applied to open-vocabulary segmentation, SPAR improves single-pass baselines by up to 10.5 mIoU and even surpasses the teacher, demonstrating effectiveness in efficient, high-resolution reasoning. Code: https://github.com/naomikombol/SPAR
- Abstract(参考訳): 基礎的視覚変換器(ViT)は、固定された事前学習解像度と本質的に粗いパッチレベルの表現のために、きめ細かな空間的理解を必要とするタスクにおいて、限られた効果を有する。
これらの課題は特に、ViTベースの視覚言語モデルによるオープン語彙のセグメンテーションのような、ピクセルレベルの正確な推論には高解像度の入力が不可欠であるような、密集した予測シナリオにおいて顕著である。
既存のアプローチでは、トレーニング前の解像度でスライドウインドウ戦略を用いて大解像度画像を処理するのが一般的である。
これにより精度は向上するが、計算コストは大幅に向上する。
SPAR: Single-Pass Any-Resolution ViTは高分解能推論のために設計された高分解能高分解能特徴抽出器である。
本研究では,微弱なスライドウインドウ教師の空間的推論能力を,建築的変化や画素レベルの監督を必要とせず,特徴的回帰損失を用いて単一パスの学生に蒸留する。
オープン語彙のセグメンテーションに適用すると、SPARはシングルパスベースラインを最大10.5 mIoUで改善し、教師を超え、効率的な高分解能推論の有効性を示す。
コード:https://github.com/naomikombol/SPAR
関連論文リスト
- ResPrune: Text-Conditioned Subspace Reconstruction for Visual Token Pruning in Large Vision-Language Models [59.94664910790462]
ResPruneは、大規模な視覚言語モデルのためのトレーニング不要のビジュアルトークンプルーニングフレームワークである。
視覚トークンのコンパクトだが情報に富むサブセットを選択する。
これは、計算、メモリ消費、推論遅延を効果的に削減する。
論文 参考訳(メタデータ) (2026-03-22T07:44:45Z) - Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance [60.028070589466445]
Pyramid Token Pruning (PTP) は、階層的にボトムアップの視覚的サリエンスとトークンレベルをトップダウンの指導誘導の関連性と統合する、トレーニング不要の戦略である。
PTPは計算コスト、メモリ使用量、推論遅延を大幅に削減し、性能劣化を無視できることを示した。
論文 参考訳(メタデータ) (2025-09-19T07:28:17Z) - Lightweight Modular Parameter-Efficient Tuning for Open-Vocabulary Object Detection [2.1155908599769764]
パラメータ効率の良いオープン語彙オブジェクト検出のための軽量なモジュラーフレームワークUniProj-Detを提案する。
UniProj-Detは事前訓練されたバックボーンを凍結し、学習可能なモダリティトークンを備えたユニバーサル・プロジェクション・モジュールを導入し、最小限のコストで視覚-言語適応を可能にする。
論文 参考訳(メタデータ) (2024-08-20T12:27:53Z) - HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models [44.146292819267956]
大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学び、視覚的問題のようなタスクに有効である。
本稿では,OVSS(Plug-and-Play-Vocabulary Semantic)を提案する。
論文 参考訳(メタデータ) (2023-11-28T06:42:58Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。