論文の概要: AR-RAG: Autoregressive Retrieval Augmentation for Image Generation
- arxiv url: http://arxiv.org/abs/2506.06962v1
- Date: Sun, 08 Jun 2025 01:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.586692
- Title: AR-RAG: Autoregressive Retrieval Augmentation for Image Generation
- Title(参考訳): AR-RAG:画像生成のための自己回帰検索強化
- Authors: Jingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang,
- Abstract要約: 本稿では, 自動回帰検索(AR-RAG)を導入し, パッチレベルでのケネレス近傍検索を自己回帰的に組み込むことにより, 画像生成を向上させる新しいパラダイムを提案する。
我々は、Midjourney-30K, GenEval, DPG-Benchなど、広く採用されているベンチマークにおけるAR-RAGの有効性を検証する。
- 参考スコア(独自算出の注目度): 35.008697736838194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Autoregressive Retrieval Augmentation (AR-RAG), a novel paradigm that enhances image generation by autoregressively incorporating knearest neighbor retrievals at the patch level. Unlike prior methods that perform a single, static retrieval before generation and condition the entire generation on fixed reference images, AR-RAG performs context-aware retrievals at each generation step, using prior-generated patches as queries to retrieve and incorporate the most relevant patch-level visual references, enabling the model to respond to evolving generation needs while avoiding limitations (e.g., over-copying, stylistic bias, etc.) prevalent in existing methods. To realize AR-RAG, we propose two parallel frameworks: (1) Distribution-Augmentation in Decoding (DAiD), a training-free plug-and-use decoding strategy that directly merges the distribution of model-predicted patches with the distribution of retrieved patches, and (2) Feature-Augmentation in Decoding (FAiD), a parameter-efficient fine-tuning method that progressively smooths the features of retrieved patches via multi-scale convolution operations and leverages them to augment the image generation process. We validate the effectiveness of AR-RAG on widely adopted benchmarks, including Midjourney-30K, GenEval and DPG-Bench, demonstrating significant performance gains over state-of-the-art image generation models.
- Abstract(参考訳): 本稿では, 自動回帰検索(AR-RAG)を導入し, パッチレベルでのケネレス近傍検索を自己回帰的に組み込むことにより, 画像生成を向上させる新しいパラダイムを提案する。
生成前の単一の静的な検索と、固定参照画像全体の生成を条件とする従来の方法とは異なり、AR-RAGは、各生成ステップでコンテキスト対応の検索を実行し、事前生成したパッチをクエリとして使用して、最も関連性の高いパッチレベルのビジュアル参照を検索し、組み込むことで、既存の手法で一般的な制限(オーバーコピー、スタイリスティックバイアスなど)を避けながら、モデルが生成ニーズに応答できるようにする。
AR-RAGを実現するために,(1)デコードにおける分散化(DAiD)と(2)デコードにおける特徴拡張(FAiD)の2つの並列フレームワークを提案する。
我々は、Midjourney-30K, GenEval, DPG-Benchなど、広く採用されているベンチマークにおけるAR-RAGの有効性を検証する。
関連論文リスト
- RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors [54.81109375939306]
RGE-GSは、拡散に基づく生成と報酬誘導ガウス積分を相乗化する新しい拡張的再構築フレームワークである。
本稿では,復元フェーズに先立って一貫したパターンを識別・優先順位付けする報奨ネットワークを提案する。
復元過程において,シーン収束度に応じてガウス最適化の進捗を自動的に調整する学習戦略を考案した。
論文 参考訳(メタデータ) (2025-06-28T08:02:54Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。
我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。
ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:59:48Z) - Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - RestoreVAR: Visual Autoregressive Generation for All-in-One Image Restoration [27.307331773270676]
潜時拡散モデル(LDM)はオールインワン画像復元法(AiOR)の知覚的品質を大幅に改善した。
これらの LDM ベースのフレームワークは反復的なデノゲーションプロセスによって推論が遅くなり、時間に敏感なアプリケーションでは実用的でない。
本稿では, AiOR に対する新しい生成手法を提案し, LDM モデルよりも高速な推論を達成しつつ, 復元性能において LDM モデルよりも優れることを示す。
論文 参考訳(メタデータ) (2025-05-23T15:52:26Z) - TensorAR: Refinement is All You Need in Autoregressive Image Generation [45.38495724606076]
Autoregressive (AR)イメージジェネレータは、因果シーケンス内の離散画像トークンを予測することによって、画像生成に言語モデルフレンドリなアプローチを提供する。
拡散モデルとは異なり、ARモデルは以前の予測を洗練させるメカニズムがなく、生成品質を制限している。
本稿では,次世代の予測から次世代の予測へ変換する新たなARパラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-22T07:27:25Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - DRM-IR: Task-Adaptive Deep Unfolding Network for All-In-One Image
Restoration [5.573836220587265]
本研究は,効率的な動的参照モデリングパラダイム(DRM-IR)を提案する。
DRM-IRはタスク適応型劣化モデリングとモデルベースの画像復元で構成されている。
複数のベンチマークデータセットの実験は、DRM-IRがAll-In-One IRで最先端のIRを達成することを示している。
論文 参考訳(メタデータ) (2023-07-15T02:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。