論文の概要: Switchable Token-Specific Codebook Quantization For Face Image Compression
- arxiv url: http://arxiv.org/abs/2510.22943v2
- Date: Tue, 28 Oct 2025 05:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.90331
- Title: Switchable Token-Specific Codebook Quantization For Face Image Compression
- Title(参考訳): 顔画像圧縮のためのスイッチング型トークン特化コードブック量子化
- Authors: Yongbo Wang, Haonan Wang, Guodong Mu, Ruixin Zhang, Jiaqi Chen, Jingyun Zhang, Jun Wang, Yuan Xie, Zhizhong Zhang, Shouhong Ding,
- Abstract要約: 顔画像圧縮のための切り換え可能なToken-Specific Codebook Quantizationを提案する。
トークンが少量のビットを持つコードブックグループを記録することで,コードブックグループのサイズを小さくする場合に発生する損失を低減することができる。
提案手法は顔認識データに対して有効性を示し,0.05bppの再構成画像に対して平均93.51%の精度を実現した。
- 参考スコア(独自算出の注目度): 72.44596412563503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the ever-increasing volume of visual data, the efficient and lossless transmission, along with its subsequent interpretation and understanding, has become a critical bottleneck in modern information systems. The emerged codebook-based solution utilize a globally shared codebook to quantize and dequantize each token, controlling the bpp by adjusting the number of tokens or the codebook size. However, for facial images, which are rich in attributes, such global codebook strategies overlook both the category-specific correlations within images and the semantic differences among tokens, resulting in suboptimal performance, especially at low bpp. Motivated by these observations, we propose a Switchable Token-Specific Codebook Quantization for face image compression, which learns distinct codebook groups for different image categories and assigns an independent codebook to each token. By recording the codebook group to which each token belongs with a small number of bits, our method can reduce the loss incurred when decreasing the size of each codebook group. This enables a larger total number of codebooks under a lower overall bpp, thereby enhancing the expressive capability and improving reconstruction performance. Owing to its generalizable design, our method can be integrated into any existing codebook-based representation learning approach and has demonstrated its effectiveness on face recognition datasets, achieving an average accuracy of 93.51% for reconstructed images at 0.05 bpp.
- Abstract(参考訳): 視覚データの量が増え続けるにつれ、効率的でロスレスな伝送は、その後の解釈と理解とともに、現代の情報システムにおいて重要なボトルネックとなっている。
出現したコードブックベースのソリューションは、グローバルに共有されたコードブックを使用して、各トークンの定量化と定量化を行い、トークンの数やコードブックサイズを調整することによってbppを制御する。
しかし、属性が豊富な顔画像の場合、このようなグローバルコードブック戦略は、画像内のカテゴリ固有の相関とトークン間の意味的差異の両方を見落とし、特に低いbppにおいて、最適なパフォーマンスをもたらす。
これらの結果から,顔画像圧縮のための切り換え可能なToken-Specific Codebook Quantizationを提案し,異なる画像カテゴリの異なるコードブックグループを学習し,各トークンに独立したコードブックを割り当てる。
トークンが少量のビットを持つコードブックグループを記録することで,コードブックグループのサイズを小さくする場合に発生する損失を低減することができる。
これにより、全体的なbpp以下のコードブックの総数が増加し、表現能力が向上し、再構築性能が向上する。
一般化可能な設計のため、既存のコードブックベースの表現学習手法に組み込むことができ、顔認識データセット上での有効性を実証し、0.05bppの再構成画像に対して平均93.51%の精度を実現した。
関連論文リスト
- ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。
本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。
実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-14T17:58:10Z) - Exploiting Discriminative Codebook Prior for Autoregressive Image Generation [54.14166700058777]
トークンベースの自己回帰画像生成システムは、まずトークンインデックスのシーケンスをコードブックでトークン化し、次にこれらのシーケンスを自己回帰パラダイムでモデル化する。
自己回帰生成モデルはインデックス値のみに基づいて訓練されるが、豊富なトークン類似性情報を含むコードブックにエンコードされた前者は利用されない。
近年の研究では、トークン上に単純なk平均クラスタリングを行い、コードブックを減らした生成モデルのトレーニングを容易にすることで、これを先に組み込もうとしている。
k-meansの代替として、差別的コードブック先駆者(DCPE)を提案する。
論文 参考訳(メタデータ) (2025-08-14T15:00:00Z) - Dual Codebook VQ: Enhanced Image Reconstruction with Reduced Codebook Size [0.0]
ベクトル量子化(VQ)技術は、コードブック利用における課題に直面し、画像モデリングにおける再構成忠実度を制限する。
本稿では,表現を補完的なグローバルコンポーネントとローカルコンポーネントに分割することで,この制限を効果的に解決するDual Codebookメカニズムを提案する。
提案手法は,様々な画像領域,特にシーンや顔の再構成作業において優れたFID改善を実現する。
論文 参考訳(メタデータ) (2025-03-13T19:31:18Z) - Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。
IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文 参考訳(メタデータ) (2024-12-03T18:59:10Z) - Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。
このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。
実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文 参考訳(メタデータ) (2024-11-25T18:59:53Z) - SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook [9.993066868670283]
本稿では,SGC-VQGANをセマンティックオンラインクラスタリング法で導入し,一貫性セマンティックラーニングによるトークンセマンティクスを強化する。
提案手法は時間空間的に一貫したセマンティック・コードブックを構築し,コードブックの崩壊問題と不均衡なトークン・セマンティクスに対処する。
論文 参考訳(メタデータ) (2024-09-09T23:12:43Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。