論文の概要: ARSS: Taming Decoder-only Autoregressive Visual Generation for View Synthesis From Single View
- arxiv url: http://arxiv.org/abs/2509.23008v1
- Date: Sat, 27 Sep 2025 00:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.97981
- Title: ARSS: Taming Decoder-only Autoregressive Visual Generation for View Synthesis From Single View
- Title(参考訳): ARSS: 単一ビューからのビュー合成のためのデコーダのみの自動回帰視覚生成
- Authors: Wenbin Teng, Gonglin Chen, Haiwei Chen, Yajie Zhao,
- Abstract要約: textbfARSSは、カメラの軌跡に条件付けされた単一の画像から新しいビューを生成するフレームワークである。
本手法は,拡散モデルに基づく最先端のビュー合成手法に比較可能か,あるいはそれ以上に機能する。
- 参考スコア(独自算出の注目度): 11.346049532150127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their exceptional generative quality, diffusion models have limited applicability to world modeling tasks, such as novel view generation from sparse inputs. This limitation arises because diffusion models generate outputs in a non-causal manner, often leading to distortions or inconsistencies across views, and making it difficult to incrementally adapt accumulated knowledge to new queries. In contrast, autoregressive (AR) models operate in a causal fashion, generating each token based on all previously generated tokens. In this work, we introduce \textbf{ARSS}, a novel framework that leverages a GPT-style decoder-only AR model to generate novel views from a single image, conditioned on a predefined camera trajectory. We employ a video tokenizer to map continuous image sequences into discrete tokens and propose a camera encoder that converts camera trajectories into 3D positional guidance. Then to enhance generation quality while preserving the autoregressive structure, we propose a autoregressive transformer module that randomly permutes the spatial order of tokens while maintaining their temporal order. Extensive qualitative and quantitative experiments on public datasets demonstrate that our method performs comparably to, or better than, state-of-the-art view synthesis approaches based on diffusion models. Our code will be released upon paper acceptance.
- Abstract(参考訳): 並外れた生成品質にもかかわらず、拡散モデルはスパース入力からの新規なビュー生成のような世界モデリングタスクに限定的に適用可能である。
この制限は拡散モデルが非因果的な方法で出力を生成し、しばしばビューの歪みや不整合を生じさせ、蓄積した知識を新しいクエリに漸進的に適応させることが難しくなるために生じる。
対照的に、自己回帰(AR)モデルは因果的に動作し、以前に生成された全てのトークンに基づいて各トークンを生成する。
本稿では、GPTスタイルのデコーダのみのARモデルを利用して、事前に定義されたカメラ軌道に条件付けされた単一の画像から新しいビューを生成する新しいフレームワークである \textbf{ARSS}を紹介する。
連続画像列を離散トークンにマッピングするためにビデオトークン化器を用い、カメラ軌跡を3次元位置案内に変換するカメラエンコーダを提案する。
そこで本稿では,自己回帰構造を保ちながら生成品質を向上させるために,トークンの空間順序をランダムに変化させる自動回帰変換器モジュールを提案する。
公開データセットにおける大規模定性的および定量的な実験により,拡散モデルに基づく最先端のビュー合成手法と同等かそれ以上に,我々の手法が機能することを示した。
私たちのコードは受理後に解放されます。
関連論文リスト
- Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - TensorAR: Refinement is All You Need in Autoregressive Image Generation [45.38495724606076]
Autoregressive (AR)イメージジェネレータは、因果シーケンス内の離散画像トークンを予測することによって、画像生成に言語モデルフレンドリなアプローチを提供する。
拡散モデルとは異なり、ARモデルは以前の予測を洗練させるメカニズムがなく、生成品質を制限している。
本稿では,次世代の予測から次世代の予測へ変換する新たなARパラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-22T07:27:25Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。