論文の概要: Spanning Tree Autoregressive Visual Generation
- arxiv url: http://arxiv.org/abs/2511.17089v1
- Date: Fri, 21 Nov 2025 09:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.961197
- Title: Spanning Tree Autoregressive Visual Generation
- Title(参考訳): スパンニングツリー自動回帰視覚生成
- Authors: Sangkyu Lee, Changho Lee, Janghoon Han, Hosung Song, Tackgeun You, Hwasup Lim, Stanley Jungkyu Choi, Honglak Lee, Youngjae Yu,
- Abstract要約: 本稿では,Spanning Tree Autoregressive (STAR) モデリングについて述べる。
- 参考スコア(独自算出の注目度): 51.7635842702602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Spanning Tree Autoregressive (STAR) modeling, which can incorporate prior knowledge of images, such as center bias and locality, to maintain sampling performance while also providing sufficiently flexible sequence orders to accommodate image editing at inference. Approaches that expose randomly permuted sequence orders to conventional autoregressive (AR) models in visual generation for bidirectional context either suffer from a decline in performance or compromise the flexibility in sequence order choice at inference. Instead, STAR utilizes traversal orders of uniform spanning trees sampled in a lattice defined by the positions of image patches. Traversal orders are obtained through breadth-first search, allowing us to efficiently construct a spanning tree whose traversal order ensures that the connected partial observation of the image appears as a prefix in the sequence through rejection sampling. Through the tailored yet structured randomized strategy compared to random permutation, STAR preserves the capability of postfix completion while maintaining sampling performance without any significant changes to the model architecture widely adopted in the language AR modeling.
- Abstract(参考訳): Spanning Tree Autoregressive (STAR) モデリングは、中心バイアスや局所性といった画像の事前の知識を取り入れ、サンプリング性能を維持しつつ、推論時の画像編集に十分なフレキシブルなシーケンスオーダを提供する。
双方向コンテキストの視覚生成における従来の自己回帰(AR)モデルにランダムに置換されたシーケンスオーダを露出するアプローチは、性能の低下または推論時のシーケンスオーダ選択の柔軟性を損なう。
代わりにSTARは、画像パッチの位置によって定義された格子にサンプリングされた均一な木々のトラバース順序を利用する。
トラバースファースト探索によりトラバースオーダが得られ、トラバースオーダが画像の連結部分観察がレジェクションサンプリングによってプレフィックスとして現れることを確実にするスパンニングツリーを効率的に構築できる。
STARは、ランダムな置換と比較して、調整されたが構造化されたランダム化戦略を通じて、言語ARモデリングで広く採用されているモデルアーキテクチャに大きな変更を加えることなく、サンプリング性能を維持しながら、修正完了の能力を保っている。
関連論文リスト
- Latent Beam Diffusion Models for Generating Visual Sequences [16.1012766388174]
既存の手法は個々の画像を独立して生成し、切り離された物語に繋がる。
我々は、潜在宇宙探査のための新しいビーム探索戦略を導入する。
BeamDiffusionは、コヒーレンス、視覚的連続性、テキストアライメントに優れたフルシーケンスを生成する。
論文 参考訳(メタデータ) (2025-03-26T11:01:10Z) - Autoregressive Image Generation with Randomized Parallel Decoding [28.352741116124538]
本稿では,ランダム化並列生成が可能な新しい視覚自己回帰モデルであるARPGを紹介する。
ARPGは推論の30倍以上の高速化と、メモリ消費の75%削減を実現している。
ImageNet-1K 256ベンチマークでは、32ステップのサンプリングでFIDが1.83に達した。
論文 参考訳(メタデータ) (2025-03-13T17:19:51Z) - Warmup Generations: A Task-Agnostic Approach for Guiding Sequence-to-Sequence Learning with Unsupervised Initial State Generation [34.55224347308013]
シーケンシャル・ツー・シークエンス・タスクのための従来の教師付き微調整(SFT)戦略は、しばしばターゲット出力を直接生成するようにモデルを訓練する。
モデルが中間の"upwarm"シーケンスを生成可能なタスク非依存フレームワークを提案する。
提案手法は従来のSFT手法よりも優れており,シーケンシャル・ツー・シーケンス・タスクに対してスケーラブルで柔軟なソリューションを提供する。
論文 参考訳(メタデータ) (2025-02-17T20:23:42Z) - Unsupervised Segmentation by Diffusing, Walking and Cutting [5.6872893893453105]
本稿では,事前学習したテキスト・画像拡散モデルの特徴を用いた教師なし画像分割手法を提案する。
重要な洞察は、自己アテンション確率分布は、画像を横断するランダムウォーキングの遷移行列として解釈できることである。
提案手法は,COCO-Stuff-27およびCityscapesにおける非教師なしセグメンテーションの既存手法を全て超越し,最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-12-06T00:23:18Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。