論文の概要: Semantic Context Matters: Improving Conditioning for Autoregressive Models
- arxiv url: http://arxiv.org/abs/2511.14063v1
- Date: Tue, 18 Nov 2025 02:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.885952
- Title: Semantic Context Matters: Improving Conditioning for Autoregressive Models
- Title(参考訳): セマンティックコンテキスト: 自己回帰モデルにおける条件付けの改善
- Authors: Dongyang Jin, Ryan Xu, Jianhao Zeng, Rui Lan, Yancheng Bai, Lei Sun, Xiangxiang Chu,
- Abstract要約: 自動回帰モデルのためのセマンティック・コンテキスト駆動方式であるSCARを提案する。
SSCARはCompressed Semantic PrefillingとSemantic Alignment Guidanceという2つの重要なコンポーネントを導入している。
SSCARは、命令編集と制御可能な生成ベンチマークの両方において、優れた視覚的忠実度とセマンティックアライメントを実現する。
- 参考スコア(独自算出の注目度): 19.768966373880563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, autoregressive (AR) models have shown strong potential in image generation, offering better scalability and easier integration with unified multi-modal systems compared to diffusion-based methods. However, extending AR models to general image editing remains challenging due to weak and inefficient conditioning, often leading to poor instruction adherence and visual artifacts. To address this, we propose SCAR, a Semantic-Context-driven method for Autoregressive models. SCAR introduces two key components: Compressed Semantic Prefilling, which encodes high-level semantics into a compact and efficient prefix, and Semantic Alignment Guidance, which aligns the last visual hidden states with target semantics during autoregressive decoding to enhance instruction fidelity. Unlike decoding-stage injection methods, SCAR builds upon the flexibility and generality of vector-quantized-based prefilling while overcoming its semantic limitations and high cost. It generalizes across both next-token and next-set AR paradigms with minimal architectural changes. SCAR achieves superior visual fidelity and semantic alignment on both instruction editing and controllable generation benchmarks, outperforming prior AR-based methods while maintaining controllability. All code will be released.
- Abstract(参考訳): 近年、自己回帰(AR)モデルは画像生成に強い可能性を示し、拡散法と比較してスケーラビリティが向上し、統合されたマルチモーダルシステムとの統合が容易になった。
しかし、ARモデルを一般的な画像編集に拡張することは、弱く非効率な条件付けのために依然として困難であり、しばしば命令の順守や視覚的アーティファクトが不足する。
そこで我々は,自動回帰モデルのためのセマンティック・コンテキスト駆動方式であるSCARを提案する。
SCARでは、コンパクトで効率的なプレフィックスに高レベルなセマンティックセマンティックをエンコードするCompressed Semantic Prefillingと、自動回帰デコーディング中に最後の視覚的隠蔽状態をターゲットセマンティックと整列して命令の忠実性を高めるSemantic Alignment Guidanceという2つの重要なコンポーネントを導入している。
復号段階の注入法とは異なり、SCARはベクトル量子化されたプリフィルの柔軟性と汎用性の上に構築され、セマンティックな制限と高いコストを克服する。
アーキテクチャの変更を最小限に抑えて、次世代のARパラダイムと次世代のARパラダイムの両方を一般化する。
SCARは、命令編集と制御可能な生成ベンチマークの両方において、優れた視覚的忠実度とセマンティックアライメントを実現し、制御性を維持しながら、以前のARベースの手法より優れている。
すべてのコードがリリースされる。
関連論文リスト
- Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。
対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。
私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文 参考訳(メタデータ) (2025-09-30T11:45:48Z) - CoAR: Concept Injection into Autoregressive Models for Personalized Text-to-Image Generation [14.820840831692246]
CoARは、最小数のパラメータだけで有効で特定の主題表現を学習する。
実験により,CoARは主観的パーソナライゼーションとスタイルパーソナライゼーションの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-08-10T13:36:39Z) - Quantize More, Lose Less: Autoregressive Generation from Residually Quantized Speech Representations [26.938560887095658]
既存の自己回帰的アプローチは、しばしば大きな情報損失を被るシングルコードブック表現に依存している。
我々は、新しいオーディオであるQDAC上に構築された新しいTSフレームワークであるQTTSを提案する。
実験により,提案フレームワークは,ベースラインよりも高い合成品質を実現し,表現的コンテンツを保存できることが実証された。
論文 参考訳(メタデータ) (2025-07-16T12:47:09Z) - EAR: Erasing Concepts from Unified Autoregressive Models [3.55166983092355]
本稿では,ARモデルにおける有効かつ有効に保存できる概念消去のための微調整手法であるErasure Autoregressive Model (EAR)を提案する。
具体的には、パッチレベルのデコードと消去対象との整合性を確保するために、Windowed Gradient Accumulation (WGA)戦略を導入する。
我々はまた、ARモデルにおける概念消去を評価するためのより厳密で包括的な基盤を提供することを目的として、新しいベンチマークであるErase Concept Generator and Visual Filter (ECGVF)を提案する。
論文 参考訳(メタデータ) (2025-06-25T06:15:07Z) - CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文 参考訳(メタデータ) (2025-05-26T19:09:33Z) - Explaining the role of Intrinsic Dimensionality in Adversarial Training [31.495803865226158]
その結果,非多様体対向例(AEs)は強靭性を高め,一方,非多様体のAEsは一般化を向上させることがわかった。
SMAATは,最も内在次元の低い層を摂動させることにより,エンコーダモデルにおけるATのスケーラビリティを向上させる。
我々は、テキスト生成、感情分類、安全フィルタリング、検索強化生成設定など、複数のタスクにわたるSMAATを検証する。
論文 参考訳(メタデータ) (2024-05-27T12:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。