Fugu-MT 論文翻訳(概要): ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

論文の概要: ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

arxiv url: http://arxiv.org/abs/2502.09411v1
Date: Thu, 13 Feb 2025 15:36:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:35.323199
Title: ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation
Title（参考訳）: ImageRAG:参照誘導画像生成のための動的画像検索
Authors: Rotem Shalev-Arkushin, Rinon Gal, Amit H. Bermano, Ohad Fried,
Abstract要約: 拡散モデルは珍しい概念や目に見えない概念を生み出すのに苦労する。本稿では,あるテキストプロンプトに基づいて関連画像を動的に検索するImageRAGを提案する。私たちのアプローチは高度に適応可能で、異なるモデルタイプにまたがって適用できます。
参考スコア（独自算出の注目度）: 25.39019070750831
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models enable high-quality and diverse visual content synthesis. However, they struggle to generate rare or unseen concepts. To address this challenge, we explore the usage of Retrieval-Augmented Generation (RAG) with image generation models. We propose ImageRAG, a method that dynamically retrieves relevant images based on a given text prompt, and uses them as context to guide the generation process. Prior approaches that used retrieved images to improve generation, trained models specifically for retrieval-based generation. In contrast, ImageRAG leverages the capabilities of existing image conditioning models, and does not require RAG-specific training. Our approach is highly adaptable and can be applied across different model types, showing significant improvement in generating rare and fine-grained concepts using different base models. Our project page is available at: https://rotem-shalev.github.io/ImageRAG
Abstract（参考訳）: 拡散モデルは高品質で多様な視覚コンテンツ合成を可能にする。しかし、彼らは珍しい、あるいは目に見えない概念を生み出すのに苦労している。この課題に対処するため,画像生成モデルを用いたRAG(Retrieval-Augmented Generation)の利用について検討する。本稿では,与えられたテキストプロンプトに基づいて関連画像を動的に検索するImageRAGを提案する。検索された画像を使用して生成を改善する以前のアプローチ、特に検索ベースの生成のために訓練されたモデル。対照的に、ImageRAGは既存のイメージコンディショニングモデルの能力を活用しており、RAG固有のトレーニングを必要としない。我々のアプローチは高度に適応可能であり、異なるモデルタイプにまたがって適用可能である。私たちのプロジェクトページは、https://rotem-shalev.github.io/ImageRAGで公開されています。

関連論文リスト

More Than Generation: Unifying Generation and Depth Estimation via Text-to-Image Diffusion Models [53.98725993420285]
生成深度推定法は、事前訓練されたテキスト-画像拡散モデルに格納されたリッチな視覚的先行情報を利用する。本稿では,画像生成と深度推定の統一モデルであるMERGEを紹介する。
論文参考訳（メタデータ） (2025-10-27T17:44:56Z)
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文参考訳（メタデータ） (2025-03-13T14:31:52Z)
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文参考訳（メタデータ） (2024-06-10T17:59:52Z)
Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文参考訳（メタデータ） (2024-03-11T08:45:31Z)
Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。画像生成のための*multi-modal instruction*を導入する。画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文参考訳（メタデータ） (2024-01-03T19:31:58Z)
Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。 DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文参考訳（メタデータ） (2023-12-20T09:39:19Z)
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文参考訳（メタデータ） (2023-09-02T03:27:20Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)
Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文参考訳（メタデータ） (2021-10-06T16:27:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。