論文の概要: Neighbor-Aware Token Reduction via Hilbert Curve for Vision Transformers
- arxiv url: http://arxiv.org/abs/2512.22760v1
- Date: Sun, 28 Dec 2025 03:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.209725
- Title: Neighbor-Aware Token Reduction via Hilbert Curve for Vision Transformers
- Title(参考訳): 視覚変換器のヒルベルト曲線による隣り合わせのトークン削減
- Authors: Yunge Li, Lanyu Xu,
- Abstract要約: 視覚変換器(ViT)は視覚認識タスクにおいて顕著な成功を収めているが、冗長なトークン表現は計算効率を制限している。
本稿では, ヒルベルト曲線の再順序付けに基づく, 隣り合うトークンの削減手法を提案する。
実験により,本手法は既存の手法と比較して,最先端の精度効率トレードオフを実現することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have achieved remarkable success in visual recognition tasks, but redundant token representations limit their computational efficiency. Existing token merging and pruning strategies often overlook spatial continuity and neighbor relationships, resulting in the loss of local context. This paper proposes novel neighbor-aware token reduction methods based on Hilbert curve reordering, which explicitly preserves the neighbor structure in a 2D space using 1D sequential representations. Our method introduces two key strategies: Neighbor-Aware Pruning (NAP) for selective token retention and Merging by Adjacent Token similarity (MAT) for local token aggregation. Experiments demonstrate that our approach achieves state-of-the-art accuracy-efficiency trade-offs compared to existing methods. This work highlights the importance of spatial continuity and neighbor structure, offering new insights for the architectural optimization of ViTs.
- Abstract(参考訳): 視覚変換器(ViT)は視覚認識タスクにおいて顕著な成功を収めているが、冗長なトークン表現は計算効率を制限している。
既存のトークンマージとプルーニング戦略は、しばしば空間的連続性と隣接する関係を見落とし、局所的な文脈が失われる。
本稿では,Hilbert曲線の並べ替えに基づく新しい近傍トークン削減手法を提案する。
提案手法では,選択トークン保持のためのNAP(Neighbor-Aware Pruning)と局所トークン集約のためのMAT(Adjacent Token similarity)の2つの主要な戦略を導入する。
実験により,本手法は既存の手法と比較して,最先端の精度効率トレードオフを実現することを示す。
この研究は、空間連続性と隣接構造の重要性を強調し、ViTのアーキテクチャ最適化のための新たな洞察を提供する。
関連論文リスト
- Beyond BEV: Optimizing Point-Level Tokens for Collaborative Perception [17.654858416126093]
協調的知覚により、エージェントは中間的特徴を交換することで知覚能力を高めることができる。
既存の手法は通常、これらの中間機能を2D Bird's-eye-view (BEV)表現として整理する。
ポイントレベル最適化トークンを利用した新しい協調認識フレームワークであるCoPLOTを提案する。
論文 参考訳(メタデータ) (2025-08-27T07:27:42Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Rethinking the Zigzag Flattening for Image Reading [48.976491898131265]
我々はHilbert fractal flattening (HF) をコンピュータビジョンにおけるシーケンスオーダの別の方法として検討する。
HFは空間的局所性を維持する上で他の曲線よりも優れていることが証明されている。
ほとんどのディープニューラルネットワーク(DNN)に簡単に接続できる。
論文 参考訳(メタデータ) (2022-02-21T13:53:04Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z) - Weakly-Supervised Semantic Segmentation by Iterative Affinity Learning [86.45526827323954]
弱教師付きセマンティックセグメンテーションは、トレーニングのためにピクセル単位のラベル情報が提供されないため、難しい課題である。
このようなペア関係を学習するための反復アルゴリズムを提案する。
本稿では,提案アルゴリズムが最先端手法に対して好適に動作することを示す。
論文 参考訳(メタデータ) (2020-02-19T10:32:03Z) - Neighborhood and Graph Constructions using Non-Negative Kernel
Regression [42.16401154367232]
そこで我々は, 近傍構造がスパース信号近似問題と等価であることを示す。
また,非負のカーネル回帰(NNK)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2019-10-21T13:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。