論文の概要: Spanning Tree Autoregressive Visual Generation
- arxiv url: http://arxiv.org/abs/2511.17089v1
- Date: Fri, 21 Nov 2025 09:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.961197
- Title: Spanning Tree Autoregressive Visual Generation
- Title(参考訳): スパンニングツリー自動回帰視覚生成
- Authors: Sangkyu Lee, Changho Lee, Janghoon Han, Hosung Song, Tackgeun You, Hwasup Lim, Stanley Jungkyu Choi, Honglak Lee, Youngjae Yu,
- Abstract要約: 本稿では,Spanning Tree Autoregressive (STAR) モデリングについて述べる。
- 参考スコア(独自算出の注目度): 51.7635842702602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Spanning Tree Autoregressive (STAR) modeling, which can incorporate prior knowledge of images, such as center bias and locality, to maintain sampling performance while also providing sufficiently flexible sequence orders to accommodate image editing at inference. Approaches that expose randomly permuted sequence orders to conventional autoregressive (AR) models in visual generation for bidirectional context either suffer from a decline in performance or compromise the flexibility in sequence order choice at inference. Instead, STAR utilizes traversal orders of uniform spanning trees sampled in a lattice defined by the positions of image patches. Traversal orders are obtained through breadth-first search, allowing us to efficiently construct a spanning tree whose traversal order ensures that the connected partial observation of the image appears as a prefix in the sequence through rejection sampling. Through the tailored yet structured randomized strategy compared to random permutation, STAR preserves the capability of postfix completion while maintaining sampling performance without any significant changes to the model architecture widely adopted in the language AR modeling.
- Abstract(参考訳): Spanning Tree Autoregressive (STAR) モデリングは、中心バイアスや局所性といった画像の事前の知識を取り入れ、サンプリング性能を維持しつつ、推論時の画像編集に十分なフレキシブルなシーケンスオーダを提供する。
双方向コンテキストの視覚生成における従来の自己回帰(AR)モデルにランダムに置換されたシーケンスオーダを露出するアプローチは、性能の低下または推論時のシーケンスオーダ選択の柔軟性を損なう。
代わりにSTARは、画像パッチの位置によって定義された格子にサンプリングされた均一な木々のトラバース順序を利用する。
トラバースファースト探索によりトラバースオーダが得られ、トラバースオーダが画像の連結部分観察がレジェクションサンプリングによってプレフィックスとして現れることを確実にするスパンニングツリーを効率的に構築できる。
STARは、ランダムな置換と比較して、調整されたが構造化されたランダム化戦略を通じて、言語ARモデリングで広く採用されているモデルアーキテクチャに大きな変更を加えることなく、サンプリング性能を維持しながら、修正完了の能力を保っている。
関連論文リスト
- SMKC: Sketch Based Kernel Correlation Images for Variable Cardinality Time Series Anomaly Detection [0.0]
運用環境では、監視システムはセンサーチャーンを頻繁に経験する。
本稿では,異常検出器から動的入力構造を分離するフレームワークSMKCを提案する。
SMKC表現におけるランダムプロジェクションと近傍近傍の検出器は、完全に訓練されたベースラインと競合する。
論文 参考訳(メタデータ) (2026-01-28T21:15:11Z) - GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation [77.13582457917418]
サブサンプルフレームからなる格子画像にのみ依存する生成モデルを訓練する。
本研究では,Diffusion Transformer (DiT) の強い自己アテンション機構を用いて,フレーム間の相関関係を捉えることで,画像系列を生成することを学ぶ。
我々の手法は、データセット間で、品質および推論速度(少なくとも2倍の速さ)において、一貫してSoTAを上回ります。
論文 参考訳(メタデータ) (2025-12-24T16:46:04Z) - Does the Manipulation Process Matter? RITA: Reasoning Composite Image Manipulations via Reversely-Ordered Incremental-Transition Autoregression [13.933194190556714]
我々は、条件付きシーケンス予測タスクとして画像操作のローカライゼーションを再構成し、RITAフレームワークを提案する。
RITAは、各ステップの予測を次のステップの条件として、操作された領域を順番に階層的に予測する。
トレーニングと評価を可能にするため,マルチステップ操作データを合成し,新しいベンチマークHSIMを構築する。
論文 参考訳(メタデータ) (2025-09-24T11:25:44Z) - Latent Beam Diffusion Models for Generating Visual Sequences [16.1012766388174]
既存の手法は個々の画像を独立して生成し、切り離された物語に繋がる。
我々は、潜在宇宙探査のための新しいビーム探索戦略を導入する。
BeamDiffusionは、コヒーレンス、視覚的連続性、テキストアライメントに優れたフルシーケンスを生成する。
論文 参考訳(メタデータ) (2025-03-26T11:01:10Z) - Autoregressive Image Generation with Randomized Parallel Decoding [28.352741116124538]
本稿では,ランダム化並列生成が可能な新しい視覚自己回帰モデルであるARPGを紹介する。
ARPGは推論の30倍以上の高速化と、メモリ消費の75%削減を実現している。
ImageNet-1K 256ベンチマークでは、32ステップのサンプリングでFIDが1.83に達した。
論文 参考訳(メタデータ) (2025-03-13T17:19:51Z) - Warmup Generations: A Task-Agnostic Approach for Guiding Sequence-to-Sequence Learning with Unsupervised Initial State Generation [34.55224347308013]
シーケンシャル・ツー・シークエンス・タスクのための従来の教師付き微調整(SFT)戦略は、しばしばターゲット出力を直接生成するようにモデルを訓練する。
モデルが中間の"upwarm"シーケンスを生成可能なタスク非依存フレームワークを提案する。
提案手法は従来のSFT手法よりも優れており,シーケンシャル・ツー・シーケンス・タスクに対してスケーラブルで柔軟なソリューションを提供する。
論文 参考訳(メタデータ) (2025-02-17T20:23:42Z) - Unsupervised Segmentation by Diffusing, Walking and Cutting [5.6872893893453105]
本稿では,事前学習したテキスト・画像拡散モデルの特徴を用いた教師なし画像分割手法を提案する。
重要な洞察は、自己アテンション確率分布は、画像を横断するランダムウォーキングの遷移行列として解釈できることである。
提案手法は,COCO-Stuff-27およびCityscapesにおける非教師なしセグメンテーションの既存手法を全て超越し,最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-12-06T00:23:18Z) - Made to Order: Discovering monotonic temporal changes via self-supervised video ordering [89.0660110757949]
我々は、シャッフルされた画像シーケンスをオーバシリ信号として処理する簡単なプロキシタスクを利用する。
本稿では,任意の長さの画像列を帰属マップで順序付けするトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T17:59:56Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。