論文の概要: ARTA: Adaptive Mixed-Resolution Token Allocation for Efficient Dense Feature Extraction
- arxiv url: http://arxiv.org/abs/2603.26258v1
- Date: Fri, 27 Mar 2026 10:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.446171
- Title: ARTA: Adaptive Mixed-Resolution Token Allocation for Efficient Dense Feature Extraction
- Title(参考訳): ARTA:高効率高密度特徴抽出のための適応混合分解トークン配置
- Authors: David Hagerman, Roman Naeem, Erik Brorsson, Fredrik Kahl, Lennart Svensson,
- Abstract要約: ARTAは高密度特徴抽出のための混合分解能視覚変換器である。
低解像度(粗い)トークンから始まり、より細かいトークンを必要とする領域を予測するために軽量アロケータを使用する。
実験により、ARTAはFLOPを著しく少なくしてADE20KとCOCO-Stuffの最先端の結果が得られることが示された。
- 参考スコア(独自算出の注目度): 17.589359317827984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present ARTA, a mixed-resolution coarse-to-fine vision transformer for efficient dense feature extraction. Unlike models that begin with dense high-resolution (fine) tokens, ARTA starts with low-resolution (coarse) tokens and uses a lightweight allocator to predict which regions require more fine tokens. The allocator iteratively predicts a semantic (class) boundary score and allocates additional tokens to patches above a low threshold, concentrating token density near boundaries while maintaining high sensitivity to weak boundary evidence. This targeted allocation encourages tokens to represent a single semantic class rather than a mixture of classes. Mixed-resolution attention enables interaction between coarse and fine tokens, focusing computation on semantically complex areas while avoiding redundant processing in homogeneous regions. Experiments demonstrate that ARTA achieves state-of-the-art results on ADE20K and COCO-Stuff with substantially fewer FLOPs, and delivers competitive performance on Cityscapes at markedly lower compute. For example, ARTA-Base attains 54.6 mIoU on ADE20K in the ~100M-parameter class while using fewer FLOPs and less memory than comparable backbones.
- Abstract(参考訳): 本稿では,高密度特徴抽出のための混合分解能粗視変換器ARTAを提案する。
密度の高い高解像度(微細)トークンから始まるモデルとは異なり、ARTAは低解像度(粗い)トークンから始まり、より微細なトークンを必要とする領域を予測するために軽量なアロケータを使用する。
アロケータは、セマンティック(クラス)境界スコアを反復的に予測し、低い閾値以上のパッチにトークンを割り当て、境界付近のトークン密度を集中させ、弱い境界証拠に対する高い感度を維持する。
このターゲットアロケーションは、トークンがクラスを混在させるのではなく、単一のセマンティッククラスを表現することを奨励する。
混合分解能アテンションは粗いトークンと細かいトークンの相互作用を可能にし、均質な領域での冗長な処理を避けながら意味論的に複雑な領域に計算を集中させる。
実験の結果, ARTA は ADE20K と COCO-Stuff に対して,FLOP を著しく減らし,より少ない計算能力で,Cityscape 上での競争性能を実現している。
例えば、ARTA-Base は ADE20K の ~100M パラメータクラスで54.6 mIoU を達成するが、FLOP は少なく、メモリは同等のバックボーンより少ない。
関連論文リスト
- Multi-Scale Local Speculative Decoding for Image Generation [10.239314110594249]
マルチスケールローカル投機復号(MuLo-SD)を導入する。
MuLo-SDは、多重解像度のドラフトと空間情報による検証を組み合わせることで、AR画像生成を高速化する。
我々は MuLo-SD が $mathbf1.7times$ までの大幅な高速化を実現することを示した。
論文 参考訳(メタデータ) (2026-01-08T17:39:35Z) - Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - Semantic Concentration for Self-Supervised Dense Representations Learning [103.10708947415092]
イメージレベルの自己教師型学習(SSL)は大きな進歩を遂げているが、パッチの密度の高い表現を学ぶことは依然として難しい。
この研究は、画像レベルのSSLが暗黙のセマンティックな集中を伴って過分散を避けることを明らかにしている。
論文 参考訳(メタデータ) (2025-09-11T13:12:10Z) - Exploiting Discriminative Codebook Prior for Autoregressive Image Generation [54.14166700058777]
トークンベースの自己回帰画像生成システムは、まずトークンインデックスのシーケンスをコードブックでトークン化し、次にこれらのシーケンスを自己回帰パラダイムでモデル化する。
自己回帰生成モデルはインデックス値のみに基づいて訓練されるが、豊富なトークン類似性情報を含むコードブックにエンコードされた前者は利用されない。
近年の研究では、トークン上に単純なk平均クラスタリングを行い、コードブックを減らした生成モデルのトレーニングを容易にすることで、これを先に組み込もうとしている。
k-meansの代替として、差別的コードブック先駆者(DCPE)を提案する。
論文 参考訳(メタデータ) (2025-08-14T15:00:00Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation [8.46894039954642]
対話型セグメンテーションのための新しいマルチスケールトークン適応アルゴリズムを提案する。
マルチスケールトークンでトップk演算を行うことで、計算の複雑さが大幅に単純化される。
また,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-09T07:59:42Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Momentum Contrastive Autoencoder: Using Contrastive Learning for Latent
Space Distribution Matching in WAE [51.09507030387935]
Wasserstein autoencoder (WAE) は、2つの分布が一致することは、このAEの潜在空間が予め指定された事前分布と一致するという制約の下で、単純なオートエンコーダ(AE)損失を最小限にすることと同値であることを示している。
本稿では,この問題を解決する手段として,自己指導型表現学習に有効であることを示すコントラスト学習フレームワークを提案する。
WAEの損失を最適化するために、対照的な学習フレームワークを使用することで、WAEの一般的なアルゴリズムと比較して、より高速に収束し、より安定した最適化が達成できることを示す。
論文 参考訳(メタデータ) (2021-10-19T22:55:47Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。