論文の概要: CharGen: Fast and Fluent Portrait Modification
- arxiv url: http://arxiv.org/abs/2509.25058v1
- Date: Mon, 29 Sep 2025 17:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.151917
- Title: CharGen: Fast and Fluent Portrait Modification
- Title(参考訳): CharGen: 高速かつ高速なポートレート修正
- Authors: Jan-Niklas Dihlmann, Arnela Killguss, Hendrik P. A. Lensch,
- Abstract要約: CharGenは属性固有のConcept SlidersとStreamDiffusionサンプリングパイプラインを組み合わせた、文字中心のエディタである。
正確な編集制御とID一貫性のある結果によって、2~4倍高速な編集ターンアラウンドを実現する。
- 参考スコア(独自算出の注目度): 7.4570191712029965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive editing of character images with diffusion models remains challenging due to the inherent trade-off between fine-grained control, generation speed, and visual fidelity. We introduce CharGen, a character-focused editor that combines attribute-specific Concept Sliders, trained to isolate and manipulate attributes such as facial feature size, expression, and decoration with the StreamDiffusion sampling pipeline for more interactive performance. To counteract the loss of detail that often accompanies accelerated sampling, we propose a lightweight Repair Step that reinstates fine textures without compromising structural consistency. Throughout extensive ablation studies and in comparison to open-source InstructPix2Pix and closed-source Google Gemini, and a comprehensive user study, CharGen achieves two-to-four-fold faster edit turnaround with precise editing control and identity-consistent results. Project page: https://chargen.jdihlmann.com/
- Abstract(参考訳): キャラクタイメージの拡散モデルによるインタラクティブな編集は、きめ細かい制御、生成速度、視覚的忠実さのトレードオフにより、依然として困難である。
属性固有のConcept Slidersを組み合わせた文字中心のエディタであるCharGenを紹介し、顔の特徴のサイズや表現、装飾などの属性を、よりインタラクティブなパフォーマンスのためにStreamDiffusionサンプリングパイプラインで分離・操作するように訓練した。
サンプリングの高速化にともなうディテールの喪失に対処するため, 構造的整合性を損なうことなく微細なテクスチャを復元する軽量補修工程を提案する。
広範囲にわたるアブレーション研究と、オープンソースのInstructPix2PixやクローズドソースのGoogle Geminiとの比較、そして包括的なユーザスタディを通じて、CharGenは、正確な編集制御とID一貫性のある結果によって、2~4倍高速な編集ターンアラウンドを達成している。
プロジェクトページ:https://chargen.jdihlmann.com/
関連論文リスト
- Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - IntrinsicEdit: Precise generative image manipulation in intrinsic space [53.404235331886255]
そこで本研究では,固有画像空間で動作する汎用的生成ワークフローを提案する。
我々はアイデンティティの保存と内在チャネルの絡み合いの鍵となる課題に対処する。
我々は,グローバル照明効果の自動分解による高精度かつ効率的な編集を可能にする。
論文 参考訳(メタデータ) (2025-05-13T18:24:15Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。
軽量のスパース制御エンコーダのみを使用して編集信号を注入する。
従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文 参考訳(メタデータ) (2025-01-14T16:09:16Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。
リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。
テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Gradual Residuals Alignment: A Dual-Stream Framework for GAN Inversion
and Image Attribute Editing [36.01737879983636]
GANベースの画像編集は、まずGAN Inversionを利用して、実際の画像をGANの潜時空間に投影し、対応する潜時符号を操作する。
近年のインバージョン法は, 画像の保存性を高めるために, 新たな高ビット特徴を主に利用している。
編集中、既存の作業は失われた詳細を正確に補完することができず、編集性に欠ける。
論文 参考訳(メタデータ) (2024-02-22T09:28:47Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - A Compact and Semantic Latent Space for Disentangled and Controllable
Image Editing [4.8201607588546]
本稿では,StyleGANの潜在空間を再編成するオートエンコーダを提案する。
提案手法は,同一性に関して元の画像に対する忠実さを維持しつつ,競合する手法よりも不整合性が高いことを示す。
論文 参考訳(メタデータ) (2023-12-13T16:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。