論文の概要: SakugaFlow: A Stagewise Illustration Framework Emulating the Human Drawing Process and Providing Interactive Tutoring for Novice Drawing Skills
- arxiv url: http://arxiv.org/abs/2506.08443v1
- Date: Tue, 10 Jun 2025 04:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.473061
- Title: SakugaFlow: A Stagewise Illustration Framework Emulating the Human Drawing Process and Providing Interactive Tutoring for Novice Drawing Skills
- Title(参考訳): SakugaFlow: 人間の図面過程をエミュレートした段階的イラストレーションフレームワーク
- Authors: Kazuki Kawamura, Jun Rekimoto,
- Abstract要約: SakugaFlowは、拡散ベースの画像生成と大きな言語モデルチューターを組み合わせた4段階のパイプラインである。
初心者は解剖学、視点、構成についてリアルタイムでフィードバックを受け取る。
- 参考スコア(独自算出の注目度): 23.6178079869457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While current AI illustration tools can generate high-quality images from text prompts, they rarely reveal the step-by-step procedure that human artists follow. We present SakugaFlow, a four-stage pipeline that pairs diffusion-based image generation with a large-language-model tutor. At each stage, novices receive real-time feedback on anatomy, perspective, and composition, revise any step non-linearly, and branch alternative versions. By exposing intermediate outputs and embedding pedagogical dialogue, SakugaFlow turns a black-box generator into a scaffolded learning environment that supports both creative exploration and skills acquisition.
- Abstract(参考訳): 現在のAIイラストレーションツールはテキストプロンプトから高品質な画像を生成することができるが、人間のアーティストが追従するステップバイステップの手順を明らかにすることは滅多にない。
SakugaFlowは拡散に基づく画像生成と大規模言語モデルチューターを組み合わせた4段階パイプラインである。
各段階において、初心者は解剖学、視点、構成についてリアルタイムでフィードバックを受け、任意のステップを非線形に修正し、代替バージョンをブランチする。
中間出力を公開し、教育対話を埋め込むことで、SakugaFlowはブラックボックスジェネレータを、創造的な探索とスキル獲得の両方をサポートする足場付き学習環境に変換する。
関連論文リスト
- Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - SketchAgent: Language-Driven Sequential Sketch Generation [34.96339247291013]
SketchAgentは言語駆動でシーケンシャルなスケッチ生成方法である。
テキスト内例を通してモデルに導入した直感的なスケッチ言語を提案する。
脳卒中をストロークで描くことで、スケッチに固有の進化的でダイナミックな性質を捉えます。
論文 参考訳(メタデータ) (2024-11-26T18:32:06Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [65.73013453373349]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Training-Free Sketch-Guided Diffusion with Latent Optimization [22.94468603089249]
本稿では,既存のテキスト・画像生成モデルを拡張してスケッチを付加条件として組み込む,革新的なトレーニングフリーパイプラインを提案する。
入力スケッチによく似たレイアウトと構造を持つ新しい画像を生成するために,これらのスケッチの中核となる特徴を拡散モデルのクロスアテンションマップを用いて追跡できることを見出した。
本稿では, 生成過程の中間段階において, 雑音に富んだ遅延を洗練させる手法である潜時最適化を導入する。
論文 参考訳(メタデータ) (2024-08-31T00:44:03Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文 参考訳(メタデータ) (2023-08-27T19:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。