論文の概要: Teaching an Agent to Sketch One Part at a Time
- arxiv url: http://arxiv.org/abs/2603.19500v1
- Date: Thu, 19 Mar 2026 22:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.903261
- Title: Teaching an Agent to Sketch One Part at a Time
- Title(参考訳): エージェントに一度に1つのパーツをスケッチするように教える
- Authors: Xiaodan Du, Ruize Xu, David Yunis, Yael Vinker, Greg Shakhnarovich,
- Abstract要約: ベクトルスケッチを1部ずつ生成する手法を開発した。
我々は,新しいマルチターンプロセス・リワード強化学習を用いて,マルチモーダル言語モデルに基づくエージェントを訓練する。
この結果から,構造化された部分レベルのデータとエージェントにプロセスを通して視覚的フィードバックを提供することで,解釈可能,制御可能,局所的に編集可能なテキスト・ツー・ベクター・スケッチ生成が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 22.340669855179385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a method for producing vector sketches one part at a time. To do this, we train a multi-modal language model-based agent using a novel multi-turn process-reward reinforcement learning following supervised fine-tuning. Our approach is enabled by a new dataset we call ControlSketch-Part, containing rich part-level annotations for sketches, obtained using a novel, generic automatic annotation pipeline that segments vector sketches into semantic parts and assigns paths to parts with a structured multi-stage labeling process. Our results indicate that incorporating structured part-level data and providing agent with the visual feedback through the process enables interpretable, controllable, and locally editable text-to-vector sketch generation.
- Abstract(参考訳): ベクトルスケッチを1部ずつ生成する手法を開発した。
そこで我々は,教師付き微調整の後,新しいマルチターンプロセス・リワード強化学習を用いてマルチモーダル言語モデルに基づくエージェントを訓練する。
提案手法は,ベクトルスケッチをセマンティックな部分に分割し,構造化された多段階ラベリングプロセスを持つ部分にパスを割り当てる,新しい汎用的な自動アノテーションパイプラインを用いて,スケッチのためのリッチな部分レベルのアノテーションを含む,ControlSketch-Partと呼ばれる新しいデータセットによって実現されている。
この結果から,構造化された部分レベルのデータとエージェントにプロセスを通して視覚的フィードバックを提供することで,解釈可能,制御可能,局所的に編集可能なテキスト・ツー・ベクター・スケッチ生成が可能であることが示唆された。
関連論文リスト
- SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - SketchAgent: Language-Driven Sequential Sketch Generation [34.96339247291013]
SketchAgentは言語駆動でシーケンシャルなスケッチ生成方法である。
テキスト内例を通してモデルに導入した直感的なスケッチ言語を提案する。
脳卒中をストロークで描くことで、スケッチに固有の進化的でダイナミックな性質を捉えます。
論文 参考訳(メタデータ) (2024-11-26T18:32:06Z) - Block and Detail: Scaffolding Sketch-to-Image Generation [65.56590359051634]
アーティストの反復的な洗練プロセスと整合する新しいスケッチ・ツー・イメージ・ツールを提案する。
私たちのツールは、ブロックされたストロークをスケッチして、オブジェクトの配置や形を粗く表現し、詳細なストロークを表現して、形やシルエットを洗練します。
反復過程の任意の点において、そのようなスケッチから高忠実度画像を生成するための2パスアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-28T07:09:31Z) - Multi-Modal Prototypes for Open-World Semantic Segmentation [37.84805778548119]
セマンティックセグメンテーションをより包括的にサポートするために,テキストおよび視覚的手がかりを多モーダルプロトタイプとして包含することを提案する。
我々は,高レベル言語情報を多視点プロトタイプとして分解し,低レベル視覚情報をより意味のあるプロトタイプとして集約する。
弾性マスク予測モジュールに基づいて、ゼロショット、少数ショット、一般化されたタスクを1つのアーキテクチャで解くことができる。
論文 参考訳(メタデータ) (2023-07-05T03:27:31Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文 参考訳(メタデータ) (2021-03-25T09:47:18Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - SketchDesc: Learning Local Sketch Descriptors for Multi-view
Correspondence [68.63311821718416]
我々はマルチビュースケッチ対応の問題について検討し、同じオブジェクトの異なるビューを持つ複数のフリーハンドスケッチを入力として扱う。
異なる視点における対応する点の視覚的特徴は、非常に異なる可能性があるため、この問題は困難である。
我々は、深層学習アプローチを採用し、データから新しいローカルスケッチ記述子を学習する。
論文 参考訳(メタデータ) (2020-01-16T11:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。