論文の概要: RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning
- arxiv url: http://arxiv.org/abs/2502.00848v1
- Date: Sun, 02 Feb 2025 16:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:36.252088
- Title: RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning
- Title(参考訳): RealRAG:自己回帰的コントラスト学習による検索強化リアル画像生成
- Authors: Yuanhuiyi Lyu, Xu Zheng, Lutao Jiang, Yibo Yan, Xin Zou, Huiyu Zhou, Linfeng Zhang, Xuming Hu,
- Abstract要約: 第1回リアルタイムオブジェクトベース検索拡張生成フレームワーク(RealRAG)を提案する。
RealRAGは、生成モデルの知識ギャップを克服するために、現実世界の画像の学習と検索によって、細粒で目に見えない新しいオブジェクトを生成する。
本フレームワークは, 生成モデルに対するきめ細かな視覚的知識を統合し, 歪み問題に対処し, オブジェクト生成における現実性を改善する。
- 参考スコア(独自算出の注目度): 29.909743116379936
- License:
- Abstract: Recent text-to-image generative models, e.g., Stable Diffusion V3 and Flux, have achieved notable progress. However, these models are strongly restricted to their limited knowledge, a.k.a., their own fixed parameters, that are trained with closed datasets. This leads to significant hallucinations or distortions when facing fine-grained and unseen novel real-world objects, e.g., the appearance of the Tesla Cybertruck. To this end, we present the first real-object-based retrieval-augmented generation framework (RealRAG), which augments fine-grained and unseen novel object generation by learning and retrieving real-world images to overcome the knowledge gaps of generative models. Specifically, to integrate missing memory for unseen novel object generation, we train a reflective retriever by self-reflective contrastive learning, which injects the generator's knowledge into the sef-reflective negatives, ensuring that the retrieved augmented images compensate for the model's missing knowledge. Furthermore, the real-object-based framework integrates fine-grained visual knowledge for the generative models, tackling the distortion problem and improving the realism for fine-grained object generation. Our Real-RAG is superior in its modular application to all types of state-of-the-art text-to-image generative models and also delivers remarkable performance boosts with all of them, such as a gain of 16.18% FID score with the auto-regressive model on the Stanford Car benchmark.
- Abstract(参考訳): 最近のテキスト・画像生成モデル、例えば、安定拡散V3、Fluxは顕著な進歩を遂げている。
しかし、これらのモデルは限られた知識、すなわち閉じたデータセットで訓練された独自の固定パラメータに強く制限されている。
これは、Tesla Cybertruckの外観のような、きめ細やかで目に見えない新しい現実世界のオブジェクトに直面するとき、大きな幻覚や歪みを引き起こす。
この目的のために,本研究では,生成モデルの知識ギャップを克服するために,実世界の画像の学習と検索により,細粒度と未確認の新規オブジェクト生成を向上する,最初のリアルタイムオブジェクトベース検索拡張生成フレームワーク(RealRAG)を提案する。
具体的には、未確認の新規オブジェクト生成のための不足メモリを統合するために、自己反射的コントラスト学習により反射型レトリバーを訓練する。
さらに、実オブジェクトベースのフレームワークは、生成モデルに対するきめ細かい視覚知識を統合し、歪み問題に対処し、きめ細かいオブジェクト生成のためのリアリズムを改善する。
我々のReal-RAGは、あらゆるタイプの最先端のテキスト・ツー・イメージ生成モデルに対してモジュラー・アプリケーションに優れており、スタンフォード・カー・ベンチマークにおける自動回帰モデルによる16.18%のFIDスコアの獲得など、これらすべてで顕著なパフォーマンス向上を実現しています。
関連論文リスト
- Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Towards Realistic Data Generation for Real-World Super-Resolution [58.99206459754721]
RealDGenは、現実世界の超解像のために設計された教師なし学習データ生成フレームワークである。
我々は,コンテンツ分解脱結合拡散モデルに統合されたコンテンツと劣化抽出戦略を開発する。
実験により、RealDGenは、現実世界の劣化を反映する大規模で高品質なペアデータを生成するのに優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T13:34:57Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - A Unified Generative Framework for Realistic Lidar Simulation in Autonomous Driving Systems [10.036860459686526]
Lidarは、Autonomous Driving Systemsの知覚センサーの中で広く使われているセンサーである。
深層生成モデルは、現実的な感覚データを合成するための有望な解決策として現れてきた。
本稿では,Lidarシミュレーションの忠実度を高めるための統一的な生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T21:55:00Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - DiffGAR: Model-Agnostic Restoration from Generative Artifacts Using
Image-to-Image Diffusion Models [46.46919194633776]
この作業は、多様な生成モデルのためのプラグイン後処理モジュールの開発を目的としている。
従来の劣化パターンとは異なり、生成アーティファクトは非線形であり、変換関数は非常に複雑である。
論文 参考訳(メタデータ) (2022-10-16T16:08:47Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。