論文の概要: CycleVAR: Repurposing Autoregressive Model for Unsupervised One-Step Image Translation
- arxiv url: http://arxiv.org/abs/2506.23347v1
- Date: Sun, 29 Jun 2025 17:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.840486
- Title: CycleVAR: Repurposing Autoregressive Model for Unsupervised One-Step Image Translation
- Title(参考訳): CycleVAR: 教師なしワンステップ画像翻訳のための自己回帰モデル
- Authors: Yi Liu, Shengqian Li, Zuzeng Lin, Feng Wang, Si Liu,
- Abstract要約: 現在の条件付き自己回帰画像生成手法は有望な結果を示しているが、実際の教師なし画像翻訳領域では、その可能性はほとんど解明されていない。
臨界制限は、伝統的なベクトル量子化に基づくフレームワークに固有の離散量子化に由来する。
我々は,連続確率混合プロセスとしてコードブックの選択を再構成する新しい手法であるSoftmax Relaxed Quantizationを提案する。
- 参考スコア(独自算出の注目度): 9.628074306577851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current conditional autoregressive image generation methods have shown promising results, yet their potential remains largely unexplored in the practical unsupervised image translation domain, which operates without explicit cross-domain correspondences. A critical limitation stems from the discrete quantization inherent in traditional Vector Quantization-based frameworks, which disrupts gradient flow between the Variational Autoencoder decoder and causal Transformer, impeding end-to-end optimization during adversarial training in image space. To tackle this issue, we propose using Softmax Relaxed Quantization, a novel approach that reformulates codebook selection as a continuous probability mixing process via Softmax, thereby preserving gradient propagation. Building upon this differentiable foundation, we introduce CycleVAR, which reformulates image-to-image translation as image-conditional visual autoregressive generation by injecting multi-scale source image tokens as contextual prompts, analogous to prefix-based conditioning in language models. CycleVAR exploits two modes to generate the target image tokens, including (1) serial multi-step generation, enabling iterative refinement across scales, and (2) parallel one-step generation synthesizing all resolution outputs in a single forward pass. Experimental findings indicate that the parallel one-step generation mode attains superior translation quality with quicker inference speed than the serial multi-step mode in unsupervised scenarios. Furthermore, both quantitative and qualitative results indicate that CycleVAR surpasses previous state-of-the-art unsupervised image translation models, \textit{e}.\textit{g}., CycleGAN-Turbo.
- Abstract(参考訳): 現在の条件付き自己回帰画像生成法は有望な結果を示しているが、その可能性の大部分は、明示的なクロスドメイン対応なしで機能する、実用的な教師なし画像翻訳領域において探索されていない。
臨界制限は、従来のベクトル量子化に基づくフレームワークに固有の離散量子化に起因しており、これは変分オートエンコーダデコーダと因果変換器の間の勾配流れを妨害し、画像空間における対角トレーニングにおけるエンドツーエンドの最適化を妨げる。
この問題に対処するために、Softmaxによる連続確率混合プロセスとしてコードブック選択を再構成し、勾配伝播を保存する新しい手法であるSoftmax Relaxed Quantizationを提案する。
この微分可能な基盤の上に構築されたCycleVARは,言語モデルにおけるプレフィックスベース条件に類似した,複数スケールのソース画像トークンを文脈的プロンプトとして注入することにより,画像から画像への変換を視覚的自己回帰生成として再構成する。
CycleVARは、(1)シリアルマルチステップの生成、スケール間の反復的な洗練、(2)1つのフォワードパスですべての解像度出力を合成する並列1ステップ生成を含む、2つのモードを利用してターゲット画像トークンを生成する。
実験結果から, 並列1ステップ生成モードは, 教師なしシナリオにおけるシリアルマルチステップモードよりも高速な推論速度で優れた翻訳品質が得られることがわかった。
さらに、定量的および定性的な結果は、CycleVARが以前の最先端の教師なし画像翻訳モデルである \textit{e} を上回っていることを示している。
\textit{g}。
、CycleGAN-Turbo。
関連論文リスト
- Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文 参考訳(メタデータ) (2025-05-29T16:15:48Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - High-Resolution Image Synthesis via Next-Token Prediction [19.97037318862443]
連続トークンに基づく自己回帰モデルである textbfD-JEPA$cdot$T2I を導入し、任意の解像度で高品質なフォトリアリスティック画像を最大4Kで生成する。
次世代の予測により,最先端の高精細画像合成を実現する。
論文 参考訳(メタデータ) (2024-11-22T09:08:58Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Bidirectional Consistency Models [1.486435467709869]
拡散モデル(DM)は、ランダムなベクトルを反復的に認知することで、驚くほど高品質なサンプルを生成することができる。
DMはまた、確率フロー常微分方程式(PF ODE)に沿って後方に移動することにより、入力画像から雑音への逆変換も可能である。
論文 参考訳(メタデータ) (2024-03-26T18:40:36Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - ImageBART: Bidirectional Context with Multinomial Diffusion for
Autoregressive Image Synthesis [15.006676130258372]
自己回帰モデルは、以前に合成された画像パッチを上または左にのみ参加することで、コンテキストを線形1次元順序で組み込む。
自己回帰的定式化と多項拡散過程を組み合わせたコンテキストの粗大な階層構造を提案する。
当社のアプローチは、ローカルな画像編集を行うために、制限のない、ユーザが提供するマスクを考慮に入れることができる。
論文 参考訳(メタデータ) (2021-08-19T17:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。