論文の概要: One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression
- arxiv url: http://arxiv.org/abs/2501.10064v1
- Date: Fri, 17 Jan 2025 09:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:22.007677
- Title: One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression
- Title(参考訳): 1-D-Piece:画像のトケナイザが品質を調節できる圧縮技術に挑戦
- Authors: Keita Miwa, Kento Sasaki, Hidehisa Arai, Tsubasa Takahashi, Yu Yamaguchi,
- Abstract要約: 可変長トークン化のための離散画像トークンであるOne-D-Pieceを紹介する。
Tail Token Dropは、"Tail Token Drop"と呼ばれる正規化メカニズムを1次元画像トークンに分割する。
コンストラクタを複数の再構成品質指標で評価した結果,既存の品質管理可能な圧縮手法よりもはるかに優れた知覚品質が得られることがわかった。
- 参考スコア(独自算出の注目度): 1.7942265700058988
- License:
- Abstract: Current image tokenization methods require a large number of tokens to capture the information contained within images. Although the amount of information varies across images, most image tokenizers only support fixed-length tokenization, leading to inefficiency in token allocation. In this study, we introduce One-D-Piece, a discrete image tokenizer designed for variable-length tokenization, achieving quality-controllable mechanism. To enable variable compression rate, we introduce a simple but effective regularization mechanism named "Tail Token Drop" into discrete one-dimensional image tokenizers. This method encourages critical information to concentrate at the head of the token sequence, enabling support of variadic tokenization, while preserving state-of-the-art reconstruction quality. We evaluate our tokenizer across multiple reconstruction quality metrics and find that it delivers significantly better perceptual quality than existing quality-controllable compression methods, including JPEG and WebP, at smaller byte sizes. Furthermore, we assess our tokenizer on various downstream computer vision tasks, including image classification, object detection, semantic segmentation, and depth estimation, confirming its adaptability to numerous applications compared to other variable-rate methods. Our approach demonstrates the versatility of variable-length discrete image tokenization, establishing a new paradigm in both compression efficiency and reconstruction performance. Finally, we validate the effectiveness of tail token drop via detailed analysis of tokenizers.
- Abstract(参考訳): 現在の画像トークン化法は、画像に含まれる情報をキャプチャするために、多数のトークンを必要とする。
情報量は画像によって異なるが、ほとんどの画像トークンライザは固定長のトークン化しかサポートせず、トークン割り当ての効率が悪くなる。
本研究では,可変長のトークン化用に設計され,品質制御可能な機構を実現する離散画像トークンであるOne-D-Pieceを紹介する。
可変圧縮率を実現するため、離散的な1次元画像トークン化器に「Tail Token Drop」と呼ばれるシンプルだが効果的な正規化機構を導入する。
この方法は、重要な情報をトークンシーケンスの先頭に集中させ、最先端の再構築品質を維持しつつ、バリアードトークン化のサポートを可能にする。
コンストラクタを複数の再構成品質指標で評価し,JPEGやWebPなど,既存の品質管理可能な圧縮手法に比べて,より少ないバイトサイズで知覚品質を提供することを確認した。
さらに、画像分類、オブジェクト検出、セマンティックセグメンテーション、深さ推定など、様々な下流コンピュータビジョンタスクにおけるトークン化装置の評価を行い、他の可変レート法と比較して多くのアプリケーションに適用可能であることを確認する。
提案手法は可変長離散画像トークン化の汎用性を実証し,圧縮効率と再構成性能の両面で新たなパラダイムを確立する。
最後に, トークン化剤の詳細な分析により, テールトークンドロップの有効性を検証した。
関連論文リスト
- Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - DeepHQ: Learned Hierarchical Quantizer for Progressive Deep Image Coding [27.875207681547074]
プログレッシブ画像符号化(PIC)は、画像の様々な品質を単一のビットストリームに圧縮することを目的としている。
ニューラルネットワーク(NN)に基づくPICの研究は、その初期段階にある。
本稿では,まず,学習した量子化ステップサイズを各量子化レイヤの学習により活用するNNベースのプログレッシブコーディング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T06:32:53Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Rate-Distortion-Cognition Controllable Versatile Neural Image Compression [47.72668401825835]
速度歪み認識制御可能な多目的画像圧縮法を提案する。
本手法は, 良好なICM性能とフレキシブルレート・ディストーション・コグニテーション制御を実現する。
論文 参考訳(メタデータ) (2024-07-16T13:17:51Z) - Probing Image Compression For Class-Incremental Learning [8.711266563753846]
連続機械学習(ML)システムは、前もって学習したデータのパフォーマンスを維持するために、メモリ制限内に代表サンプル(例題としても知られる)を格納することに依存する。
本稿では,バッファの容量を増大させる戦略として画像圧縮を利用する方法を検討する。
本稿では,事前処理データ圧縮ステップと効率的な圧縮率/アルゴリズム選択方法を含む連続MLのための画像圧縮を組み込む新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-10T18:58:14Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。