論文の概要: Multidimensional Byte Pair Encoding: Shortened Sequences for Improved Visual Data Generation
- arxiv url: http://arxiv.org/abs/2411.10281v1
- Date: Fri, 15 Nov 2024 15:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:56.822480
- Title: Multidimensional Byte Pair Encoding: Shortened Sequences for Improved Visual Data Generation
- Title(参考訳): 多次元バイトペア符号化:改良されたビジュアルデータ生成のための短縮シーケンス
- Authors: Tim Elsner, Paula Usinger, Julius Nehring-Wirxel, Gregor Kobsik, Victor Czech, Yanjiang He, Isaak Lim, Leif Kobbelt,
- Abstract要約: 言語処理では、変換器は圧縮されたテキストから大いに恩恵を受ける。
これは、平易な文字の代わりに単語の断片をキャプチャするより大きな語彙によって達成される。
私たちの仕事はByte Pairの導入によって視覚データのトークン化を改善します。
1次元から複数の次元へ。
- 参考スコア(独自算出の注目度): 7.659816122873334
- License:
- Abstract: In language processing, transformers benefit greatly from text being condensed. This is achieved through a larger vocabulary that captures word fragments instead of plain characters. This is often done with Byte Pair Encoding. In the context of images, tokenisation of visual data is usually limited to regular grids obtained from quantisation methods, without global content awareness. Our work improves tokenisation of visual data by bringing Byte Pair Encoding from 1D to multiple dimensions, as a complementary add-on to existing compression. We achieve this through counting constellations of token pairs and replacing the most frequent token pair with a newly introduced token. The multidimensionality only increases the computation time by a factor of 2 for images, making it applicable even to large datasets like ImageNet within minutes on consumer hardware. This is a lossless preprocessing step. Our evaluation shows improved training and inference performance of transformers on visual data achieved by compressing frequent constellations of tokens: The resulting sequences are shorter, with more uniformly distributed information content, e.g. condensing empty regions in an image into single tokens. As our experiments show, these condensed sequences are easier to process. We additionally introduce a strategy to amplify this compression further by clustering the vocabulary.
- Abstract(参考訳): 言語処理では、変換器は圧縮されたテキストから大いに恩恵を受ける。
これは、平易な文字の代わりに単語の断片をキャプチャするより大きな語彙によって達成される。
これはByte Pair Encodingでしばしば行われる。
画像の文脈では、視覚データのトークン化は通常、グローバルなコンテンツ認識なしに量子化法から得られる正規のグリッドに限られる。
既存の圧縮に補完的なアドオンとして,Byte Pair Encodingを1次元から複数次元にすることで,視覚データのトークン化を改善する。
トークンペアの列を数え、最も頻繁なトークンペアを新しく導入されたトークンに置き換えることでこれを実現できる。
多次元性は、画像に対する2倍の計算時間しか増加しないため、消費者向けハードウェア上では数分でImageNetのような大規模なデータセットにも適用できる。
これは損失のない事前処理のステップです。
その結果,画像中の空の領域を1つのトークンに縮合するなど,より均一に分散した情報量で,より短いシーケンスで,トークンの頻繁なコンステレーションを圧縮することで得られる視覚データに対するトランスフォーマーのトレーニングと推論性能の向上が示された。
我々の実験が示すように、これらの凝縮配列はより容易に処理できる。
さらに,語彙をクラスタ化することで,この圧縮をさらに増幅する戦略も導入する。
関連論文リスト
- Adaptive Length Image Tokenization via Recurrent Allocation [81.10081670396956]
現在の視覚システムは、情報内容に関わらず、画像に一定長の表現を割り当てている。
そこで本研究では,2次元画像に対する可変長トークン表現の学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T18:58:01Z) - GlobalMamba: Global Image Serialization for Vision Mamba [73.50475621164037]
視覚マンバは、視覚トークンの数に対して線形複雑度で強い性能を示した。
既存のほとんどの方法はパッチベースの画像トークン化を採用し、因果処理のためにそれらを1Dシーケンスにフラット化する。
本稿では,グローバルな画像シリアライズ手法を提案し,その画像を因果トークンのシーケンスに変換する。
論文 参考訳(メタデータ) (2024-10-14T09:19:05Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting [8.572133295533643]
本稿では,離散潜在符号の生成枠組みに基づく大規模マスク多元画像の描画手法を提案する。
本手法は,画像の可視な場所でのみ計算を行うことで,トークンとして識別された遅延先行を学習する。
論文 参考訳(メタデータ) (2024-03-27T01:28:36Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Byte Pair Encoding for Symbolic Music [0.0]
Byte Pair 埋め込みは語彙サイズを増大させながらシーケンス長を著しく減少させる。
我々は、より表現力のあるトークンでそのようなモデルの埋め込み能力を活用し、その結果、より優れた結果と、生成および分類タスクにおける高速な推論の両方をもたらす。
ソースコードはGithubと同伴のウェブサイトで共有されている。
論文 参考訳(メタデータ) (2023-01-27T20:22:18Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。