論文の概要: ChannelTok: Efficient Flexible-Length Vision Tokenization
- arxiv url: http://arxiv.org/abs/2606.04461v1
- Date: Wed, 03 Jun 2026 05:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.562113
- Title: ChannelTok: Efficient Flexible-Length Vision Tokenization
- Title(参考訳): ChannelTok: 効率的なフレキシブル・ロング・ビジョン・トークン化
- Authors: Sukriti Paul, Arpit Bansal, Tom Goldstein,
- Abstract要約: 単純で軽量で高速なチャネル幅のフレキシブルなトークン化器を導入する。
提案手法は,各潜伏チャネルを視覚トークンとして扱い,パラメータ効率の良いCNN-Transformerハイブリッドバックボーンを実現する。
我々は、ImageNetの広範な実験を通じて、さまざまなトークン予算で一貫した品質を実証し、アプローチを検証する。
- 参考スコア(独自算出の注目度): 50.67214721388959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leading flexible vision tokenizers achieve SOTA quality at an extreme cost, relying on parameter-heavy backbones and slow, multi-step generative decoders. We depart from this complex, spatial-token paradigm and introduce a simple, lightweight, and fast channel-wise flexible-length tokenizer. Our method treats each latent channel as a visual token, enabling a parameter-efficient CNN-Transformer hybrid backbone. Furthermore, employing a stochastic tail-dropping paradigm during training naturally forces channels to organize by semantic importance. This allows for flexible compression at inference by simply retaining the first $k$ channels, and naturally enables variable-length autoregressive image generation. We validate our approach through extensive experiments on ImageNet, demonstrating consistent quality across diverse token budgets. The results establish a new quality-efficiency frontier: our model achieves state-of-the-art perceptual quality (rFID 2.92) while being $8.6\times$ faster in decoding and $2.1\times$ smaller (159M params) than the next-best alternative. Our work establishes channel-wise tokenization as a powerful and practical paradigm for efficient visual representation. Project page: https://channeltok.github.io
- Abstract(参考訳): フレキシブルな視覚トークン化器は、パラメータの多いバックボーンと遅いマルチステップ生成デコーダに頼って、SOTAの品質を極端にコストで達成する。
この複雑で空間的整合性のあるパラダイムから脱却し、シンプルで軽量で高速なチャネル幅のフレキシブルなトークン化器を導入します。
提案手法は,各潜伏チャネルを視覚トークンとして扱い,パラメータ効率の良いCNN-Transformerハイブリッドバックボーンを実現する。
さらに、訓練中に確率論的テールドロップピングパラダイムを用いることで、チャネルに意味的重要性による組織化を強制する。
これにより、最初の$k$チャンネルを単に保持することで、推論時に柔軟な圧縮が可能となり、可変長の自己回帰画像生成が自然に可能になる。
我々は、ImageNetの広範な実験を通じて、さまざまなトークン予算で一貫した品質を実証し、アプローチを検証する。
我々のモデルは、最先端の知覚品質(rFID 2.92)を達成しつつ、復号速度が8.6\times$、より小型の2.1\times$(159Mparams)を実現している。
我々の研究は、効率的な視覚表現のための強力で実用的なパラダイムとしてチャネルワイドなトークン化を確立している。
プロジェクトページ: https:// channeltok.github.io
関連論文リスト
- EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation [80.13014959623452]
EVATokは、$textbfE$fficient $textbfV$ideo $textbfA$daptive $textbfTok$enizersを生成するフレームワークである。
EVATok は UCF-101 上でより優れた再構成と最先端のクラス・ビデオ生成を実現する。
論文 参考訳(メタデータ) (2026-03-12T17:59:59Z) - TrajTok: Learning Trajectory Tokens enables better Video Understanding [63.1260672430712]
ビデオモデルのトークン化は、通常、パッチ化によって、過剰で冗長な数のトークンを生成する。
そこで我々は,ビデオモデルと完全に統合され,共にトレーニングされたビデオトークンモジュールであるTrajTokを提案する。
本稿では,前処理した視覚特徴量(TrajAdapter)の探索ヘッドとしてシームレスに統合できるか,特に長ビデオ推論において高い性能を持つ視覚言語モデル(TrajVLM)のアライメントコネクタとして利用できることを示す。
論文 参考訳(メタデータ) (2026-02-26T09:15:34Z) - SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and $\mathcal{O}(T)$ Complexity [32.99546963983819]
スパイキングニューラルネットワーク(SNN)は、さまざまな視覚タスクにおいて、ニューラルネットワーク(ANN)と競合する性能を示している。
本稿では,効率的なスパイク駆動型ビデオトランスフォーマーであるSpikeVideoFormerを紹介する。
提案手法は既存のSNN手法と比較して,SOTA(State-of-the-art)性能を実現することを示す。
論文 参考訳(メタデータ) (2025-05-15T14:43:35Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。