Fugu-MT 論文翻訳(概要): Balancing Image Compression and Generation with Bootstrapped Tokenization

論文の概要: Balancing Image Compression and Generation with Bootstrapped Tokenization

arxiv url: http://arxiv.org/abs/2606.05552v1
Date: Thu, 04 Jun 2026 01:06:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.45921
Title: Balancing Image Compression and Generation with Bootstrapped Tokenization
Title（参考訳）: ブートストラップトケナイゼーションによる画像圧縮と生成のバランシング
Authors: Haozhe Chi, Jinghan Li, Hao Jiang, Wu Sheng, Yi Ma, Jing Wang, Yadong Mu,
Abstract要約: 本稿では,グローバルおよびローカルトークングループに情報をクリーンに分解する手法であるSelfBootTokを紹介する。ローカル表現学習により多くのデータやパラメータを活用することで、SelfBootTokは64トークンのみを使用して、新しい最先端のgFIDスコア1.56をエレガントに達成する。
参考スコア（独自算出の注目度）: 44.43511365396605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite progress in image tokenization, standard methods encode redundant information by mixing all granularities within each token, thus redundancy persists between tokens. The mix of information of different granularity also complicates the training of generators. This paper introduces SelfBootTok, a method that resolves this by cleanly decomposing information into global and local token groups. Through self-bootstrapped learning, the model predicts local details exclusively from global tokens, shifting the burden of visual details from the generator to the tokenizer. Consequently, our generator is far more efficient, requiring only global tokens and reducing computation by approximately 40%, while delivering superior reconstruction and generation. Moreover, this paradigm scales elegantly: by leveraging more data or parameters to self-supervise local representation learning, SelfBootTok achieves a new state-of-the-art gFID score of 1.56 using only 64 tokens.
Abstract（参考訳）: 画像トークン化の進展にもかかわらず、標準メソッドは各トークンにすべての粒度を混ぜることで冗長情報を符号化するので、トークン間の冗長性は持続する。異なる粒度の情報の混合もまた、ジェネレータの訓練を複雑にする。本稿では,グローバルなトークングループとローカルなトークングループに情報をクリーンに分解することで,これを解決する手法であるSelfBootTokを紹介する。自己ブートストラップ学習により、このモデルはグローバルトークンのみから局所的な詳細を予測し、生成器からトークン化器への視覚的詳細の負担をシフトする。その結果、我々のジェネレータはより効率的であり、グローバルトークンのみを必要とし、計算量を約40%削減すると同時に、より優れた再構築と生成を実現している。さらに、このパラダイムはエレガントにスケールする: ローカル表現学習により多くのデータやパラメータを活用することで、64トークンのみを使用して、新しい最先端のgFIDスコア1.56を達成する。

関連論文リスト

Characterizing the Expressivity of Local Attention in Transformers [54.7971926111047]
トランスフォーマーは、言語モデリングの最も人気のあるニューラルアーキテクチャである。本研究では,大域的注意を持つ固定精度変換器が,単一過去の演算子を含む線形時間論理の断片に対応することを示す。さらに、局所的な注意を加えることで、第二の時間演算子を導入し、認識可能な正規言語のクラスを厳密に拡大することを示す。
論文参考訳（メタデータ） (2026-05-01T16:30:52Z)
Efficiency Follows Global-Local Decoupling [62.05489838893081]
ConvNeurは、軽量なニューラルメモリブランチがトークンの集合にグローバルなコンテキストを集約する2分岐アーキテクチャである。学習ゲートは、グローバルなキューが目的を絞ることなく、局所的な特徴を調整できる。標準的な分類、検出、セグメンテーションのベンチマークでは、ConvNeurは同等または低い計算で同等の選択肢にマッチするか、超えている。
論文参考訳（メタデータ） (2026-03-20T02:20:16Z)
Local Representative Token Guided Merging for Text-to-Image Generation [26.585985828583304]
ReToM(Local representative token guided merging)は、画像生成における任意の注意機構に適用可能な新しいトークンマージ戦略である。実験の結果, ReToMはFIDとCLIPのスコアがベースラインに比べて6.2%向上していることがわかった。
論文参考訳（メタデータ） (2025-07-17T04:16:24Z)
Hita: Holistic Tokenizer for Autoregressive Image Generation [56.81871174745175]
自己回帰(AR)画像生成のための新しい画像トークンであるtextitHita を紹介する。学習可能な全体的クエリとローカルパッチトークンを備えた、全体論的から局所的なトークン化スキームを導入している。
論文参考訳（メタデータ） (2025-07-03T06:44:26Z)
Tokenphormer: Structure-aware Multi-token Graph Transformer for Node Classification [9.967313792318606]
構造対応マルチトークングラフ変換器(Tokenphormer)を提案する。複数のトークンを生成し、局所的および構造的な情報をキャプチャし、異なるレベルの粒度でグローバルな情報を探索する。実験により,提案したTokenphormerのノード分類タスクにおける最先端性能を実現することができることを示した。
論文参考訳（メタデータ） (2024-12-19T10:44:18Z)
Quantised Global Autoencoder: A Holistic Approach to Representing Visual Data [7.152103069753289]
量子化されたオートエンコーダでは、画像は通常、局所的なパッチに分割され、それぞれが1つのトークンでエンコードされる。本手法は,入力信号を大域周波数の重畳に変換するスペクトル分解に着想を得たものである。
論文参考訳（メタデータ） (2024-07-16T17:05:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。