論文の概要: SketchAgent: Language-Driven Sequential Sketch Generation
- arxiv url: http://arxiv.org/abs/2411.17673v1
- Date: Tue, 26 Nov 2024 18:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:34:37.350570
- Title: SketchAgent: Language-Driven Sequential Sketch Generation
- Title(参考訳): SketchAgent: 言語駆動のシーケンススケッチ生成
- Authors: Yael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba,
- Abstract要約: SketchAgentは言語駆動でシーケンシャルなスケッチ生成方法である。
テキスト内例を通してモデルに導入した直感的なスケッチ言語を提案する。
脳卒中をストロークで描くことで、スケッチに固有の進化的でダイナミックな性質を捉えます。
- 参考スコア(独自算出の注目度): 34.96339247291013
- License:
- Abstract: Sketching serves as a versatile tool for externalizing ideas, enabling rapid exploration and visual communication that spans various disciplines. While artificial systems have driven substantial advances in content creation and human-computer interaction, capturing the dynamic and abstract nature of human sketching remains challenging. In this work, we introduce SketchAgent, a language-driven, sequential sketch generation method that enables users to create, modify, and refine sketches through dynamic, conversational interactions. Our approach requires no training or fine-tuning. Instead, we leverage the sequential nature and rich prior knowledge of off-the-shelf multimodal large language models (LLMs). We present an intuitive sketching language, introduced to the model through in-context examples, enabling it to "draw" using string-based actions. These are processed into vector graphics and then rendered to create a sketch on a pixel canvas, which can be accessed again for further tasks. By drawing stroke by stroke, our agent captures the evolving, dynamic qualities intrinsic to sketching. We demonstrate that SketchAgent can generate sketches from diverse prompts, engage in dialogue-driven drawing, and collaborate meaningfully with human users.
- Abstract(参考訳): スケッチはアイデアを外部化するための汎用的なツールとして機能し、様々な分野にまたがる迅速な探索と視覚的コミュニケーションを可能にする。
人工システムは、コンテンツ作成と人間とコンピュータの相互作用の大幅な進歩を導いてきたが、人間のスケッチの動的で抽象的な性質を捉えることは依然として困難である。
本研究では,動的対話によるスケッチの作成,修正,洗練を可能にする言語駆動の逐次スケッチ生成手法であるSketchAgentを紹介する。
私たちのアプローチでは、トレーニングや微調整は必要ありません。
代わりに、市販のマルチモーダル言語モデル(LLM)のシーケンシャルな性質と豊富な事前知識を活用します。
文字列ベースのアクションを使って"描画"できる,直感的なスケッチ言語を提案する。
これらはベクトルグラフィックスに処理され、ピクセルキャンバスのスケッチを作成するために描画される。
脳卒中をストロークで描くことで、スケッチに固有の進化的でダイナミックな性質を捉えます。
我々は、SketchAgentが多様なプロンプトからスケッチを生成し、対話型描画に従事し、人間のユーザと有意義に協力できることを実証した。
関連論文リスト
- SketchTriplet: Self-Supervised Scenarized Sketch-Text-Image Triplet Generation [6.39528707908268]
シーンスケッチ用の大規模なペアデータセットは引き続き欠如している。
本稿では,既存のシーンスケッチに依存しないシーンスケッチ生成のための自己教師型手法を提案する。
シーンスケッチを中心にした大規模なデータセットをコントリビュートし、セマンティックに一貫した「テキスト・スケッチ・イメージ」三つ子を含む。
論文 参考訳(メタデータ) (2024-05-29T06:43:49Z) - SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文 参考訳(メタデータ) (2023-08-27T19:44:44Z) - Painter: Teaching Auto-regressive Language Models to Draw Sketches [5.3445140425713245]
ユーザプロンプトをテキスト記述形式でスケッチに変換するLLMであるPapererを提示する。
テキストプロンプトと組み合わせた多目的スケッチのデータセットを作成する。
自動回帰画像生成にLSMを使うことは、前例のない先駆的な試みであるが、結果は大いに奨励されている。
論文 参考訳(メタデータ) (2023-08-16T17:18:30Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - DoodleFormer: Creative Sketch Drawing with Transformers [68.18953603715514]
創造的スケッチ(Creative sketching)またはドゥーリング(Duodling)は、日常の視覚的物体の想像的かつ以前は目に見えない描写が描かれた表現的活動である。
本稿では,クリエイティビティスケッチ生成問題を粗いスケッチ合成に分解する,粗い2段階のフレームワークDoodleFormerを提案する。
生成した創作スケッチの多様性を確保するため,確率論的粗いスケッチデコーダを導入する。
論文 参考訳(メタデータ) (2021-12-06T18:59:59Z) - SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。
主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。
我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文 参考訳(メタデータ) (2020-03-05T14:54:10Z) - SketchDesc: Learning Local Sketch Descriptors for Multi-view
Correspondence [68.63311821718416]
我々はマルチビュースケッチ対応の問題について検討し、同じオブジェクトの異なるビューを持つ複数のフリーハンドスケッチを入力として扱う。
異なる視点における対応する点の視覚的特徴は、非常に異なる可能性があるため、この問題は困難である。
我々は、深層学習アプローチを採用し、データから新しいローカルスケッチ記述子を学習する。
論文 参考訳(メタデータ) (2020-01-16T11:31:21Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。