論文の概要: CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image
Encoders
- arxiv url: http://arxiv.org/abs/2106.14843v1
- Date: Mon, 28 Jun 2021 16:43:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:01:50.262367
- Title: CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image
Encoders
- Title(参考訳): CLIPDraw: 言語-画像エンコーダによるテキスト-描画合成の探索
- Authors: Kevin Frans, L.B. Soros, Olaf Witkowski
- Abstract要約: CLIPDrawは、自然言語入力に基づいて新しい描画を合成するアルゴリズムである。
ピクセル画像ではなく、ベクターストローク(ベクトルストローク)上で動作します。
結果はCLIPDrawと他の合成-スルー-最適化法を比較した。
- 参考スコア(独自算出の注目度): 0.7734726150561088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents CLIPDraw, an algorithm that synthesizes novel drawings
based on natural language input. CLIPDraw does not require any training; rather
a pre-trained CLIP language-image encoder is used as a metric for maximizing
similarity between the given description and a generated drawing. Crucially,
CLIPDraw operates over vector strokes rather than pixel images, a constraint
that biases drawings towards simpler human-recognizable shapes. Results compare
between CLIPDraw and other synthesis-through-optimization methods, as well as
highlight various interesting behaviors of CLIPDraw, such as satisfying
ambiguous text in multiple ways, reliably producing drawings in diverse
artistic styles, and scaling from simple to complex visual representations as
stroke count is increased. Code for experimenting with the method is available
at:
https://colab.research.google.com/github/kvfrans/clipdraw/blob/main/clipdraw.ipynb
- Abstract(参考訳): 本研究は,自然言語入力に基づく新しい図面を合成するアルゴリズムである clipdraw を提案する。
CLIPDrawはトレーニングを一切必要とせず、トレーニング済みのCLIP言語イメージエンコーダは、与えられた記述と生成された描画との類似性を最大化する指標として使用される。
重要なこととして、CLIPDrawはピクセル画像ではなくベクトルストローク上で動作している。
結果は,CLIPDrawと他の合成-スルー-最適化法を比較し,複数の方法で曖昧なテキストを満たすこと,多彩な芸術的スタイルの図面を確実に作成すること,ストローク数の増加に伴って単純な視覚表現から複雑な視覚表現へのスケーリングなど,CLIPDrawの様々な興味深い振る舞いを強調した。
https://colab.research.google.com/github/kvfrans/clipdraw/blob/main/clipdraw.ipynb
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Equipping Sketch Patches with Context-Aware Positional Encoding for Graphic Sketch Representation [4.961362040453441]
グラフィックスケッチ表現を学習するための変分描画保護手法を提案する。
スケッチ描画をグラフエッジに注入する代わりに、これらのシーケンシャル情報をグラフノードにのみ埋め込む。
実験結果から,本手法はスケッチのヒーリングと制御可能なスケッチ合成を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-03-26T09:26:12Z) - SketchINR: A First Look into Sketches as Implicit Neural Representations [120.4152701687737]
暗黙的ニューラルモデルを用いてベクトルスケッチの表現を前進させるSketchINRを提案する。
可変長ベクトルスケッチは、時間とストロークの関数として下層の形状を暗黙的に符号化する固定次元の潜時空間に圧縮される。
初めてSketchINRは、ストロークの数と複雑さの点で、さまざまな抽象化でスケッチを再現する人間の能力をエミュレートする。
論文 参考訳(メタデータ) (2024-03-14T12:49:29Z) - CLIPDrawX: Primitive-based Explanations for Text Guided Sketch Synthesis [4.025987274016071]
ここでは、CLIP の潜在空間は、円や直線のような単純な幾何学的原始体上の線型変換の観点でのみ視覚化可能であることを示す。
CLIPDrawXは,CLIPテキストの埋め込みにおいて,より優れた視覚化を提供するアルゴリズムである。
論文 参考訳(メタデータ) (2023-12-04T21:11:42Z) - SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文 参考訳(メタデータ) (2023-08-27T19:44:44Z) - A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch [63.12810494378133]
テキスト記述とスケッチを入力として,画像検索のためのエンドツーエンドのトレーニング可能なモデルを提案する。
テキストに加え、入力スケッチ(下図)を使用することで、従来のテキストベースの画像検索と比較して、検索リコールが大幅に増加することを実証的に実証した。
論文 参考訳(メタデータ) (2022-08-05T18:43:37Z) - Abstracting Sketches through Simple Primitives [53.04827416243121]
人間は、オブジェクト情報を素早く通信する必要があるゲームにおいて、高いレベルの抽象化能力を示す。
本稿では,プリミティブをベースとしたスケッチ抽象化タスクを提案する。
我々のPrimitive-Matching Network(PMN)は、スケッチの解釈可能な抽象化を自己管理的に学習する。
論文 参考訳(メタデータ) (2022-07-27T14:32:39Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - CLIPasso: Semantically-Aware Object Sketching [34.53644912236454]
本稿では,幾何学的および意味的単純化によって導かれる抽象レベルが異なるオブジェクトスケッチ手法を提案する。
スケッチをB'ezier曲線の集合として定義し、CLIPに基づく知覚的損失に対して曲線のパラメータを直接最適化するために微分器を使用する。
論文 参考訳(メタデータ) (2022-02-11T18:35:25Z) - StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis [9.617654472780874]
StyleCLIPDrawはCLIPDrawテキストから描画合成モデルにスタイル損失を追加する。
提案手法はテクスチャと形状の両方でスタイルを捉えることができる。
論文 参考訳(メタデータ) (2021-11-04T19:57:17Z) - Sketchformer: Transformer-based Representation for Sketched Structure [12.448155157592895]
Sketchformerは、ベクトル形式で入力された自由ハンドスケッチを符号化するトランスフォーマーベースの表現である。
連続的およびトークン化された入力表現を探索するいくつかの変種を報告し、それらの性能を対比する。
我々の学習した埋め込みは辞書学習トークン化方式によって駆動され、分類および画像検索タスクにおける技術性能の状態を出力する。
論文 参考訳(メタデータ) (2020-02-24T17:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。