論文の概要: RAGDiffusion: Faithful Cloth Generation via External Knowledge Assimilation
- arxiv url: http://arxiv.org/abs/2411.19528v1
- Date: Fri, 29 Nov 2024 07:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:53.171721
- Title: RAGDiffusion: Faithful Cloth Generation via External Knowledge Assimilation
- Title(参考訳): RAGDiffusion:外部知識同化による忠実な衣服生成
- Authors: Xianfeng Tan, Yuhan Li, Wenxiang Shang, Yubo Wu, Jian Wang, Xuanhong Chen, Yi Zhang, Ran Lin, Bingbing Ni,
- Abstract要約: 本稿では、構造決定性と幻覚を高めるために、RAGDiffusionと呼ばれる新しいRAG(Retrieval-Augmented Generation)フレームワークを提案する。
RaGDiffusionは、構造的にも細部的にも忠実な衣服の資産を合成する。
- 参考スコア(独自算出の注目度): 41.28255372035626
- License:
- Abstract: Standard clothing asset generation involves creating forward-facing flat-lay garment images displayed on a clear background by extracting clothing information from diverse real-world contexts, which presents significant challenges due to highly standardized sampling distributions and precise structural requirements in the generated images. Existing models have limited spatial perception and often exhibit structural hallucinations in this high-specification generative task. To address this issue, we propose a novel Retrieval-Augmented Generation (RAG) framework, termed RAGDiffusion, to enhance structure determinacy and mitigate hallucinations by assimilating external knowledge from LLM and databases. RAGDiffusion consists of two core processes: (1) Retrieval-based structure aggregation, which employs contrastive learning and a Structure Locally Linear Embedding (SLLE) to derive global structure and spatial landmarks, providing both soft and hard guidance to counteract structural ambiguities; and (2) Omni-level faithful garment generation, which introduces a three-level alignment that ensures fidelity in structural, pattern, and decoding components within the diffusing. Extensive experiments on challenging real-world datasets demonstrate that RAGDiffusion synthesizes structurally and detail-faithful clothing assets with significant performance improvements, representing a pioneering effort in high-specification faithful generation with RAG to confront intrinsic hallucinations and enhance fidelity.
- Abstract(参考訳): 標準衣服資産生成は、さまざまな現実世界の文脈から衣服情報を抽出することにより、背景に鮮明に表示された前方に平らな衣服画像を作成することを含み、これは、高度に標準化されたサンプリング分布と、生成された画像の正確な構造的要求により、重大な課題を生じさせる。
既存のモデルは空間知覚が限られており、しばしばこの高比重生成タスクにおいて構造的幻覚を示す。
この問題に対処するため,LLMやデータベースから外部知識を同化することにより,構造決定性を高め,幻覚を緩和する新たなRAGフレームワーク(Retrieval-Augmented Generation)を提案する。
RAGDiffusion は,(1) 大域的構造と空間的ランドマークを導出するために, 相対的学習と局所的線形埋め込み(SLLE)を併用した検索型構造アグリゲーションと, (2) 構造的・パターン的・復号的要素の忠実性を保証する3段階のアライメントを導入する Omni レベルの忠実な衣服生成の2つのプロセスから構成される。
現実のデータセットの挑戦に関する大規模な実験により、RAGDiffusionは構造的および詳細に忠実な衣服資産を重要なパフォーマンス改善で合成し、RAGによる本質的な幻覚に立ち向かい、忠実性を高めるための高比重忠実な世代における先駆的な取り組みを示している。
関連論文リスト
- StructSR: Refuse Spurious Details in Real-World Image Super-Resolution [35.1930212334597]
StructSRは、構造的忠実性を高め、拡散に基づくReal-ISRの急激な詳細を抑制する、シンプルで効果的で、プラグアンドプレイの手法である。
中心となるのがStructure-Aware Screeningメカニズムで、初期の推論段階での低解像度(LR)入力と最も構造的に類似したイメージを識別する。
実験の結果,StructSRは構造とテクスチャの忠実度を著しく改善し,PSNRおよびSSIMの指標を合成データセット(DIV2K-Val)で平均5.27%,9.36%,2で4.13%,8.64%改善した。
論文 参考訳(メタデータ) (2025-01-10T08:18:37Z) - TopoFR: A Closer Look at Topology Alignment on Face Recognition [42.936929062768826]
PTSAと呼ばれるトポロジカル構造アライメント戦略とSDEという硬質試料マイニング戦略を利用する新しいFRモデルであるTopoFRを提案する。
PTSAは永続ホモロジーを用いて入力空間と潜在空間の位相構造を整列し、構造情報を効果的に保存し、FRモデルの一般化性能を向上させる。
一般的な顔のベンチマーク実験の結果は、最先端の手法よりもTopoFRの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-10-14T14:58:30Z) - Self-Assessed Generation: Trustworthy Label Generation for Optical Flow and Stereo Matching in Real-world [24.251352190100135]
本稿では、光学フローとステレオタスクのための統合された自己教師付き一般化フレームワークである自己評価生成(SAG)を提案する。
従来の自己教師型手法とは異なり、SAGはデータ駆動であり、高度な再構成技術を用いてRGB画像から再構成フィールドを構築し、それに基づいてデータセットを生成する。
論文 参考訳(メタデータ) (2024-10-14T12:46:17Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Fine-grained building roof instance segmentation based on domain adapted
pretraining and composite dual-backbone [13.09940764764909]
本稿では,高解像度光衛星画像を用いた個々の建物の意味解釈を実現するための枠組みを提案する。
具体的には、レバレッジされたドメイン適応事前学習戦略と複合二重バックボーンは、非ネイティブな特徴学習を大いに促進する。
その結果,本手法は2023年のIEEE GRSS Data Fusion Contestの第一位に位置づけられた。
論文 参考訳(メタデータ) (2023-08-10T05:54:57Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - Effect of The Latent Structure on Clustering with GANs [13.970914037707724]
本稿では, GANの生成空間におけるクラスタリングの問題に着目し, 潜在空間の特性との関係を明らかにする。
我々は、第一原則、GANフレームワークにおける忠実なクラスタリングを達成するために必要な必要かつ十分な条件から導き出します。
また,スパース監視によるクラスタ事前学習を容易にするマルチモーダル潜在空間の構築手順についても述べる。
論文 参考訳(メタデータ) (2020-05-05T18:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。