論文の概要: AutoSketch: VLM-assisted Style-Aware Vector Sketch Completion
- arxiv url: http://arxiv.org/abs/2502.06860v1
- Date: Fri, 07 Feb 2025 23:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:06:39.940288
- Title: AutoSketch: VLM-assisted Style-Aware Vector Sketch Completion
- Title(参考訳): AutoSketch:VLMを利用したスタイル対応ベクター・スケッチ・コンプリート
- Authors: Hsiao-Yuan Chin, I-Chao Shen, Yi-Ting Chiu, Bing-Yu Chen,
- Abstract要約: AutoSketchは、多様なスケッチスタイルに対応するスタイル対応ベクタースケッチ補完方法である。
我々のキーとなる観察は、自然言語によるスケッチのスタイル記述は、自動スケッチ完了時にそのスタイルを保存することである。
- 参考スコア(独自算出の注目度): 9.488339105761758
- License:
- Abstract: The ability to automatically complete a partial sketch that depicts a complex scene, e.g., "a woman chatting with a man in the park", is very useful. However, existing sketch generation methods create sketches from scratch; they do not complete a partial sketch in the style of the original. To address this challenge, we introduce AutoSketch, a styleaware vector sketch completion method that accommodates diverse sketch styles. Our key observation is that the style descriptions of a sketch in natural language preserve the style during automatic sketch completion. Thus, we use a pretrained vision-language model (VLM) to describe the styles of the partial sketches in natural language and replicate these styles using newly generated strokes. We initially optimize the strokes to match an input prompt augmented by style descriptions extracted from the VLM. Such descriptions allow the method to establish a diffusion prior in close alignment with that of the partial sketch. Next, we utilize the VLM to generate an executable style adjustment code that adjusts the strokes to conform to the desired style. We compare our method with existing methods across various sketch styles and prompts, performed extensive ablation studies and qualitative and quantitative evaluations, and demonstrate that AutoSketch can support various sketch scenarios.
- Abstract(参考訳): 複雑なシーン、例えば「公園で男性とチャットする女性」を描写した部分的なスケッチを自動で完成する能力は非常に有用である。
しかし、既存のスケッチ生成手法はスクラッチからスケッチを生成するため、オリジナルのスタイルで部分的なスケッチを完了しない。
この課題に対処するために,多様なスケッチスタイルに対応するスタイル対応ベクタースケッチ補完手法であるAutoSketchを紹介する。
我々のキーとなる観察は、自然言語によるスケッチのスタイル記述は、自動スケッチ完了時にそのスタイルを保存することである。
そこで我々は,事前学習された視覚言語モデル(VLM)を用いて,自然言語における部分的スケッチのスタイルを記述し,新たに生成されたストロークを用いてこれらのスタイルを再現する。
まず、VLMから抽出したスタイル記述によって強化された入力プロンプトに一致するように、ストロークを最適化する。
このような記述により、部分スケッチと密接な一致で拡散を確立することができる。
次に、VLMを用いて、所望のスタイルに合わせてストロークを調整する実行可能なスタイル調整コードを生成する。
提案手法を,様々なスケッチスタイルやプロンプトにまたがる既存の手法と比較し,広範囲にわたるアブレーション研究と質的,定量的評価を行い,AutoSketchが様々なスケッチシナリオをサポートできることを実証した。
関連論文リスト
- SketchAgent: Language-Driven Sequential Sketch Generation [34.96339247291013]
SketchAgentは言語駆動でシーケンシャルなスケッチ生成方法である。
テキスト内例を通してモデルに導入した直感的なスケッチ言語を提案する。
脳卒中をストロークで描くことで、スケッチに固有の進化的でダイナミックな性質を捉えます。
論文 参考訳(メタデータ) (2024-11-26T18:32:06Z) - PS-StyleGAN: Illustrative Portrait Sketching using Attention-Based Style Adaptation [0.0]
ポートレートスケッチでは、抽象的な線と影で実際の顔のアイデンティティ固有の属性をキャプチャする。
本稿では,肖像画合成に適したスタイル転送手法である textbfPortrait Sketching StyleGAN (PS-StyleGAN) を提案する。
StyleGANのセマンティックな$W+$潜在空間を利用してポートレートスケッチを生成します。
論文 参考訳(メタデータ) (2024-08-31T04:22:45Z) - Semi-supervised reference-based sketch extraction using a contrastive learning framework [6.20476217797034]
本研究では,対象とする参照スケッチのスタイルを非ペアデータトレーニングで模倣できる,新しいマルチモーダルスケッチ抽出手法を提案する。
提案手法は,定量評価と定性評価の両面において,最先端のスケッチ抽出法と未完成画像翻訳法より優れる。
論文 参考訳(メタデータ) (2024-07-19T04:51:34Z) - Stylized Face Sketch Extraction via Generative Prior with Limited Data [6.727433982111717]
StyleSketchは、顔画像から高解像度のスタイリングスケッチを抽出する方法である。
事前訓練されたStyleGANの深い特徴の豊富なセマンティクスを用いて、16対の顔とそれに対応するスケッチイメージでスケッチジェネレータを訓練することができる。
論文 参考訳(メタデータ) (2024-03-17T16:25:25Z) - SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文 参考訳(メタデータ) (2023-08-27T19:44:44Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in
Context [112.07988211268612]
フリーハンドシーンスケッチの最初のデータセットであるFS-COCOを用いてスケッチ研究を進めた。
本データセットは,100名の非専門家による1点あたりの時空間情報付きフリーハンドシーンベクトルスケッチからなる。
フリーハンドシーンのスケッチやスケッチのキャプションからきめ細かい画像検索の問題が初めて研究された。
論文 参考訳(メタデータ) (2022-03-04T03:00:51Z) - One Sketch for All: One-Shot Personalized Sketch Segmentation [84.45203849671003]
そこで本研究では,最初のワンショットパーソナライズドスケッチセグメンテーション手法を提案する。
我々は、同じカテゴリに属するすべてのスケッチを、特定の部分アノテーション付きの1つのスケッチでセグメント化することを目指している。
私たちは、例に埋め込まれた部分のセマンティクスを保存し、入力スタイルと抽象化に堅牢です。
論文 参考訳(メタデータ) (2021-12-20T20:10:44Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。