論文の概要: Not All Tokens are Guided Equal: Improving Guidance in Visual Autoregressive Models
- arxiv url: http://arxiv.org/abs/2509.23876v2
- Date: Tue, 30 Sep 2025 23:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.788561
- Title: Not All Tokens are Guided Equal: Improving Guidance in Visual Autoregressive Models
- Title(参考訳): すべてのトークンが平等ではない - 視覚的自己回帰モデルにおけるガイダンスの改善
- Authors: Ky Dan Nguyen, Hoang Lam Tran, Anh-Dung Dinh, Daochang Liu, Weidong Cai, Xiuying Wang, Chang Xu,
- Abstract要約: Information-Grounding Guidance (IGG) は、意味的に重要な領域へのガイダンスを注意を通して固定する新しいメカニズムである。
IGGはよりシャープでコヒーレントでセマンティックな画像を提供し、ARベースのメソッドの新しいベンチマークを設定している。
- 参考スコア(独自算出の注目度): 39.41726161769119
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autoregressive (AR) models based on next-scale prediction are rapidly emerging as a powerful tool for image generation, but they face a critical weakness: information inconsistencies between patches across timesteps introduced by progressive resolution scaling. These inconsistencies scatter guidance signals, causing them to drift away from conditioning information and leaving behind ambiguous, unfaithful features. We tackle this challenge with Information-Grounding Guidance (IGG), a novel mechanism that anchors guidance to semantically important regions through attention. By adaptively reinforcing informative patches during sampling, IGG ensures that guidance and content remain tightly aligned. Across both class-conditioned and text-to-image generation tasks, IGG delivers sharper, more coherent, and semantically grounded images, setting a new benchmark for AR-based methods.
- Abstract(参考訳): 次世代の予測に基づく自動回帰(AR)モデルは、画像生成の強力なツールとして急速に現れているが、それらは重大な弱点に直面している。
これらの不整合は誘導信号を散乱させ、条件付け情報から遠ざかって、曖昧で不誠実な特徴を残します。
本稿では,情報収集指導(IGG)による課題に対処する。
サンプリング中に情報パッチを適応的に補強することにより、IGGはガイダンスとコンテンツが密に整合していることを保証する。
クラス条件とテキスト・ツー・イメージの生成タスクの両方で、IGGはよりシャープでコヒーレントでセマンティックな画像を提供し、ARベースのメソッドの新しいベンチマークを設定する。
関連論文リスト
- Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - Navigating with Annealing Guidance Scale in Diffusion Space [50.53780111249146]
誘導尺度の選択は、視覚的に魅力的で即応的なイメージへの収束に重大な影響を与える。
本研究では,時間とともに指導尺度を動的に調整するアニーリング誘導スケジューラを提案する。
実験結果から,指導スケジューラは画像品質とテキストプロンプトとの整合性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-06-30T17:55:00Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。
概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。
本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。
DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文 参考訳(メタデータ) (2025-03-19T13:37:52Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - LARGE: Latent-Based Regression through GAN Semantics [42.50535188836529]
本稿では,少数ショットや弱ビジョンを用いた回帰課題の解法を提案する。
提案手法は,幅広い領域にまたがって適用可能であること,複数の遅延方向探索フレームワークを活用すること,そして最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-07-22T17:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。