論文の概要: T$^3$-S2S: Training-free Triplet Tuning for Sketch to Scene Generation
- arxiv url: http://arxiv.org/abs/2412.13486v1
- Date: Wed, 18 Dec 2024 04:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:49.694571
- Title: T$^3$-S2S: Training-free Triplet Tuning for Sketch to Scene Generation
- Title(参考訳): T$^3$-S2S:スケッチからシーン生成のためのトレーニング不要トリプルトチューニング
- Authors: Zhenhong Sun, Yifu Wang, Yonhon Ng, Yunfei Duan, Daoyi Dong, Hongdong Li, Pan Ji,
- Abstract要約: 本研究では,Sketch-to-Scene (T3-S2S) 生成のためのトレーニング不要トリプルトチューニングを提案する。
プロンプトバランスモジュールによるキーワード表現を強化し、クリティカルなインスタンスが欠落するリスクを低減する。
実験により,既存のスケッチ・ツー・イメージモデルの性能が大幅に向上することが確認された。
- 参考スコア(独自算出の注目度): 56.054622766743414
- License:
- Abstract: Scene generation is crucial to many computer graphics applications. Recent advances in generative AI have streamlined sketch-to-image workflows, easing the workload for artists and designers in creating scene concept art. However, these methods often struggle for complex scenes with multiple detailed objects, sometimes missing small or uncommon instances. In this paper, we propose a Training-free Triplet Tuning for Sketch-to-Scene (T3-S2S) generation after reviewing the entire cross-attention mechanism. This scheme revitalizes the existing ControlNet model, enabling effective handling of multi-instance generations, involving prompt balance, characteristics prominence, and dense tuning. Specifically, this approach enhances keyword representation via the prompt balance module, reducing the risk of missing critical instances. It also includes a characteristics prominence module that highlights TopK indices in each channel, ensuring essential features are better represented based on token sketches. Additionally, it employs dense tuning to refine contour details in the attention map, compensating for instance-related regions. Experiments validate that our triplet tuning approach substantially improves the performance of existing sketch-to-image models. It consistently generates detailed, multi-instance 2D images, closely adhering to the input prompts and enhancing visual quality in complex multi-instance scenes. Code is available at https://github.com/chaos-sun/t3s2s.git.
- Abstract(参考訳): 多くのコンピュータグラフィックスアプリケーションにはシーン生成が不可欠である。
ジェネレーティブAIの最近の進歩は、スケッチ・ツー・イメージのワークフローを効率化し、アーティストやデザイナがシーンコンセプトアートを作成する際の作業負荷を緩和している。
しかし、これらの手法は複数の詳細なオブジェクトを持つ複雑なシーンに苦しむことが多く、時には小さな例や珍しい例が欠落することがある。
本稿では,Sketch-to-Scene (T3-S2S) 生成のためのトレーニング不要トリプルトチューニングを提案する。
このスキームは既存のControlNetモデルを再活性化し、迅速なバランス、特性の優位性、高密度チューニングを含むマルチインスタンス世代を効果的に扱うことができる。
具体的には、プロンプトバランスモジュールによるキーワード表現を強化し、欠落したクリティカルインスタンスのリスクを低減する。
また、各チャネルのTopKインデックスをハイライトする特性プロミネンスモジュールが含まれており、トークンのスケッチに基づいて重要な機能がより良く表現されることを保証する。
さらに、集中的なチューニングを使用して、注意マップ内の輪郭の詳細を洗練し、インスタンス関連領域を補償する。
実験により,既存のスケッチ・ツー・イメージモデルの性能が大幅に向上することが確認された。
連続して詳細なマルチインスタンス2D画像を生成し、入力プロンプトに密着し、複雑なマルチインスタンスシーンにおける視覚的品質を向上させる。
コードはhttps://github.com/chaos-sun/t3s2s.git.comで入手できる。
関連論文リスト
- Multi-Style Facial Sketch Synthesis through Masked Generative Modeling [17.313050611750413]
本稿では,画像と対応するマルチスタイリズドスケッチを効率よく変換する軽量なエンドツーエンド合成モデルを提案する。
本研究では,半教師付き学習を学習プロセスに取り入れることで,データ不足の問題を克服する。
提案手法は,複数のベンチマークで従来アルゴリズムより常に優れていた。
論文 参考訳(メタデータ) (2024-08-22T13:45:04Z) - SketchTriplet: Self-Supervised Scenarized Sketch-Text-Image Triplet Generation [6.39528707908268]
シーンスケッチ用の大規模なペアデータセットは引き続き欠如している。
本稿では,既存のシーンスケッチに依存しないシーンスケッチ生成のための自己教師型手法を提案する。
シーンスケッチを中心にした大規模なデータセットをコントリビュートし、セマンティックに一貫した「テキスト・スケッチ・イメージ」三つ子を含む。
論文 参考訳(メタデータ) (2024-05-29T06:43:49Z) - Sketch3D: Style-Consistent Guidance for Sketch-to-3D Generation [55.73399465968594]
本稿では,テキスト記述と一致する色と入力スケッチに整合した形状のリアルな3Dアセットを生成するための,新しい生成パラダイムSketch3Dを提案する。
3つの戦略は、3次元ガウスの最適化、すなわち分布伝達機構による構造最適化、直感的なMSE損失による色最適化、CLIPに基づく幾何学的類似性損失によるスケッチ類似性最適化である。
論文 参考訳(メタデータ) (2024-04-02T11:03:24Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Block and Detail: Scaffolding Sketch-to-Image Generation [65.56590359051634]
アーティストの反復的な洗練プロセスと整合する新しいスケッチ・ツー・イメージ・ツールを提案する。
私たちのツールは、ブロックされたストロークをスケッチして、オブジェクトの配置や形を粗く表現し、詳細なストロークを表現して、形やシルエットを洗練します。
反復過程の任意の点において、そのようなスケッチから高忠実度画像を生成するための2パスアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-28T07:09:31Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Patch-based 3D Natural Scene Generation from a Single Example [35.37200601332951]
典型的にはユニークで複雑な自然シーンの3次元生成モデルを対象としている。
従来のパッチベースのイメージモデルに触発されて,パッチレベルでの3Dシーンの合成を提唱する。
論文 参考訳(メタデータ) (2023-04-25T09:19:11Z) - Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from
Sparse Image Ensemble [72.3681707384754]
Hi-LASSIEは、ユーザーが定義した形状やスケルトンテンプレートを使わずに、野生の20~30のオンライン画像から3Dで再現する。
まず,手動でアノテートした3Dスケルトンに頼る代わりに,選択した基準画像からクラス固有のスケルトンを自動的に推定する。
第二に、各インスタンスに忠実に適合する新しいインスタンス固有の最適化戦略により、形状再構成を改善する。
論文 参考訳(メタデータ) (2022-12-21T14:31:33Z) - Learning Generative Models of Textured 3D Meshes from Real-World Images [26.353307246909417]
このようなアノテーションを使わずに,テクスチャ付きトライアングルメッシュを生成するganフレームワークを提案する。
我々のアプローチのパフォーマンスは、基礎となるキーポイントに依存する以前の作業と同等であることを示します。
論文 参考訳(メタデータ) (2021-03-29T14:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。