論文の概要: VQ-SGen: A Vector Quantized Stroke Representation for Sketch Generation
- arxiv url: http://arxiv.org/abs/2411.16446v1
- Date: Mon, 25 Nov 2024 14:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:18:56.013771
- Title: VQ-SGen: A Vector Quantized Stroke Representation for Sketch Generation
- Title(参考訳): VQ-SGen:スケッチ生成のためのベクトル量子化ストローク表現
- Authors: Jiawei Wang, Zhiming Cui, Changjian Li,
- Abstract要約: VQ-SGenは、高品質なスケッチ生成のための新しいアルゴリズムである。
トークン化されたストローク表現を利用することで,高い忠実度を有するストロークを生成する。
- 参考スコア(独自算出の注目度): 12.486307321835909
- License:
- Abstract: This paper presents VQ-SGen, a novel algorithm for high-quality sketch generation. Recent approaches have often framed the task as pixel-based generation either as a whole or part-by-part, neglecting the intrinsic and contextual relationships among individual strokes, such as the shape and spatial positioning of both proximal and distant strokes. To overcome these limitations, we propose treating each stroke within a sketch as an entity and introducing a vector-quantized (VQ) stroke representation for fine-grained sketch generation. Our method follows a two-stage framework - in the first stage, we decouple each stroke's shape and location information to ensure the VQ representation prioritizes stroke shape learning. In the second stage, we feed the precise and compact representation into an auto-decoding Transformer to incorporate stroke semantics, positions, and shapes into the generation process. By utilizing tokenized stroke representation, our approach generates strokes with high fidelity and facilitates novel applications, such as conditional generation and semantic-aware stroke editing. Comprehensive experiments demonstrate our method surpasses existing state-of-the-art techniques, underscoring its effectiveness. The code and model will be made publicly available upon publication.
- Abstract(参考訳): 本稿では,高品質スケッチ生成のための新しいアルゴリズムであるVQ-SGenを提案する。
近年のアプローチでは、各ストローク間の内在的・文脈的関係、例えば近位脳卒中と遠位脳卒中の両方の形状と空間的位置を無視し、全体または部分的なピクセルベースの生成としてタスクを定式化している。
これらの制限を克服するために、スケッチ内の各ストロークをエンティティとして扱い、細かなスケッチ生成のためのベクトル量子化(VQ)ストローク表現を導入することを提案する。
最初の段階では、各ストロークの形状と位置情報を分離し、VQ表現がストロークの形状学習を優先することを保証する。
第2段階では、精密かつコンパクトな表現を自動復号変換器に供給し、ストロークのセマンティクス、位置、形状を生成プロセスに組み込む。
トークン化されたストローク表現を利用することで、高い忠実度を持つストロークを生成し、条件生成や意味認識ストローク編集などの新しい応用を促進する。
包括的実験により,本手法は既存の最先端技術を超え,その有効性を実証した。
コードとモデルは公開時に公開される。
関連論文リスト
- Text-to-Vector Generation with Neural Path Representation [27.949704002538944]
本稿では,シーケンスと画像の両モードから経路潜在空間を学習するニューラルパス表現を提案する。
第1段階では、事前訓練されたテキスト・ツー・イメージ拡散モデルにより、複雑なベクトルグラフィックスの初期生成が導かれる。
第2段階では、レイヤワイズ画像ベクトル化戦略を用いてグラフィクスを洗練し、より明確な要素と構造を実現する。
論文 参考訳(メタデータ) (2024-05-16T17:59:22Z) - Masked Generative Story Transformer with Character Guidance and Caption
Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。
以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。
我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T13:10:20Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - SSR-GNNs: Stroke-based Sketch Representation with Graph Neural Networks [34.759306840182205]
本稿では,スケッチにおけるストローク情報,すなわちスケッチの一部が頂点にエンコードされ,エッジ上のストローク間情報であるスケッチのグラフ表現について検討する。
結果のグラフ表現は、分類タスクのためのグラフニューラルネットワークのトレーニングを容易にする。
提案した表現は,既存のデータセットから分離可能ながら,構造的に類似した斬新なスケッチの生成を可能にする。
論文 参考訳(メタデータ) (2022-04-27T19:18:01Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - One Sketch for All: One-Shot Personalized Sketch Segmentation [84.45203849671003]
そこで本研究では,最初のワンショットパーソナライズドスケッチセグメンテーション手法を提案する。
我々は、同じカテゴリに属するすべてのスケッチを、特定の部分アノテーション付きの1つのスケッチでセグメント化することを目指している。
私たちは、例に埋め込まれた部分のセマンティクスを保存し、入力スタイルと抽象化に堅牢です。
論文 参考訳(メタデータ) (2021-12-20T20:10:44Z) - ShapeEditer: a StyleGAN Encoder for Face Swapping [6.848723869850855]
本研究では,高解像度,リアル,高忠実な顔交換のための新しいエンコーダであるShapeEditorを提案する。
私たちのキーとなるアイデアは、事前訓練された高品質のランダムな顔画像生成装置、すなわちStyleGANをバックボーンとして使用することです。
そこで我々は,StyleGANの潜在空間への写像を学習するために,自己教師付き損失関数の集合を提案する。
論文 参考訳(メタデータ) (2021-06-26T09:38:45Z) - R2D2: Relational Text Decoding with Transformers [18.137828323277347]
グラフ構造とそれらのノードとエッジに関連付けられた自然言語テキストとの相互作用をモデル化する新しいフレームワークを提案する。
提案手法は,グラフィカル構造とテキストのシーケンシャルな性質の両方を利用する。
提案モデルには幅広い応用があるが,データ・テキスト生成タスクにおけるその機能を示す。
論文 参考訳(メタデータ) (2021-05-10T19:59:11Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - B\'ezierSketch: A generative model for scalable vector sketches [132.5223191478268]
B'ezierSketchは、完全ベクトルスケッチのための新しい生成モデルであり、自動的にスケーラブルで高解像度である。
まず,各ストロークを最適なB'ezier曲線に埋め込むようにエンコーダを訓練する。
これにより、スケッチをパラマタライズされたストロークの短いシーケンスとして扱うことができ、これにより、より長いスケッチのために、より多くのキャパシティを持つ再帰的なスケッチジェネレータを訓練することができる。
論文 参考訳(メタデータ) (2020-07-04T21:30:52Z) - CoSE: Compositional Stroke Embeddings [52.529172734044664]
本稿では、ストロークベースの描画タスクのような複雑な自由形式構造に対する生成モデルを提案する。
我々のアプローチは、自動補完図のようなインタラクティブなユースケースに適している。
論文 参考訳(メタデータ) (2020-06-17T15:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。