Residual Decoder Adapter: ID-Preserving Tokenizer Adaption for Autoregressive Text Rendering
Abstractの概要
本論文は、視覚的な自己回帰(AR)画像生成器が依然としてテキスト描画に弱い理由を調査し、再構成の過程でテキストのきめ細かい詳細が失われるため、トークナイザーのデコーダーが主要なボトルネックになっていると論じています。著者らは、トークンIDを変更することなく既存の離散的な視覚トークナイザーをアップグレードする事後モジュールであるResidual Decoder Adapter (RDA)を提案しており、これにより事前学習済みのARモデルを再学習なしで利用可能にします。RDAは、共有IDのヒントコードブックと、凍結されたトークナイザーの出力に対してピクセル空間の補正を予測する残差デコーダーを組み合わせています。この手法は、既存のARシステムとの互換性を保ち、一般的な画像品質を概ね維持しながら、テキストの忠実度を向上させるプラグアンドプレイの方法として提示されています。
新規性
特徴的なアイデアは、元のトークン空間を維持しながらトークナイザーのデコーディングを改善することであり、トークナイザーとARのパイプラインを再学習する代わりに、事前学習済みARモデルを直接再利用できるようにする点にあります。共有IDのヒントコードブックと残差ピクセルデコーダーにより、同じ予測トークンIDから高周波のテキスト詳細を復元するための非侵襲的なメカニズムを提供します。
成果
一般的およびテキスト特化型の複数のARモデルにおいて、RDAはテキスト描画の指標を一貫して向上させ、ARモデルがすでにテキスト生成用に微調整されている場合には特に大きな精度向上を示します。例えば、微調整されたJanus-Pro 1Bは、StyledTextVisionBlendでのOCR精度が24.52%から58.26%へ、StyledTextSynthでは12.75%から36.81%へと向上し、複数のテキスト中心データセットでトークナイザーの再構成指標も改善されました。また、RDAはコンテキストのデコーダーを直接微調整する(これによりImageNetのFIDは大幅に悪化する)よりも、分布外のデータに対して堅牢であることが報告されています。
論文の注目点
- RDAは、トークンIDを変更するのではなく、残差画像補正を用いて凍結されたトークナイザーのデコーダー出力を洗練することにより、テキスト描画を向上させる。
- この手法は、ARの再学習なしでプラグアンドプレイのアダプターとして、Janus-Pro、TAR、Lumina-mGPTなどの事前学習済みARアーキテクチャ全体に適用可能である。
- 実証結果から、OCR指向の生成および再構成ベンチマークにおいて一貫した精度向上が見られ、特にテキスト特化型モデルでの著しい改善と、分布外(OOD)データにおける競争力のある振る舞いが示されている。