論文の概要: AirSketch: Generative Motion to Sketch
- arxiv url: http://arxiv.org/abs/2407.08906v1
- Date: Fri, 12 Jul 2024 00:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 01:16:30.431185
- Title: AirSketch: Generative Motion to Sketch
- Title(参考訳): AirSketch: スケッチのための生成モーション
- Authors: Hui Xian Grace Lim, Xuanming Cui, Yogesh S Rawat, Ser-Nam Lim,
- Abstract要約: 本研究では,手の動きから直接忠実で視覚的に整合したスケッチを生成することを目的としたAirSketchの概念を紹介する。
制御可能な画像拡散モデルにより、ノイズの多い手追跡画像から、きれいで美的なスケッチへの翻訳を学習することができる。
- 参考スコア(独自算出の注目度): 44.46496052461676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Illustration is a fundamental mode of human expression and communication. Certain types of motion that accompany speech can provide this illustrative mode of communication. While Augmented and Virtual Reality technologies (AR/VR) have introduced tools for producing drawings with hand motions (air drawing), they typically require costly hardware and additional digital markers, thereby limiting their accessibility and portability. Furthermore, air drawing demands considerable skill to achieve aesthetic results. To address these challenges, we introduce the concept of AirSketch, aimed at generating faithful and visually coherent sketches directly from hand motions, eliminating the need for complicated headsets or markers. We devise a simple augmentation-based self-supervised training procedure, enabling a controllable image diffusion model to learn to translate from highly noisy hand tracking images to clean, aesthetically pleasing sketches, while preserving the essential visual cues from the original tracking data. We present two air drawing datasets to study this problem. Our findings demonstrate that beyond producing photo-realistic images from precise spatial inputs, controllable image diffusion can effectively produce a refined, clear sketch from a noisy input. Our work serves as an initial step towards marker-less air drawing and reveals distinct applications of controllable diffusion models to AirSketch and AR/VR in general.
- Abstract(参考訳): イラストレーションは人間の表現とコミュニケーションの基本的なモードである。
音声に付随するある種の動きは、この説明的なコミュニケーションのモードを提供することができる。
Augmented and Virtual Reality Technologies (AR/VR) は手の動き(空気描画)を描画するツールを導入したが、通常は高価なハードウェアと追加のデジタルマーカーが必要であり、それによってアクセシビリティとポータビリティが制限される。
さらに、空気描画は美的な結果を得るためにかなりの技術を必要とする。
これらの課題に対処するために,手の動きから直接忠実で視覚的に整合したスケッチを生成し,複雑なヘッドセットやマーカーを必要としないAirSketchの概念を紹介した。
制御可能な画像拡散モデルにより、ノイズの多い手追跡画像から、クリーンで美的なスケッチへの変換を学習し、元の追跡データから不可欠な視覚的手がかりを保ちながら、簡単な拡張ベースの自己教師付き訓練手順を考案する。
この問題を研究するために,空気描画データセットを2つ提示する。
以上の結果から,空間的正確な入力から写真実写画像を生成するだけでなく,制御可能な画像拡散により,ノイズの多い入力から鮮明なスケッチを効果的に作成できることが示唆された。
我々の研究は、マーカーレス空気描画への最初のステップとして機能し、AirSketchやAR/VR全般に制御可能な拡散モデルの異なる応用を明らかにする。
関連論文リスト
- It's All About Your Sketch: Democratising Sketch Control in Diffusion Models [114.73766136068357]
本稿では,拡散モデルにおけるスケッチの可能性を明らかにするとともに,生成型AIにおける直接スケッチ制御の詐欺的可能性に対処する。
私たちはこのプロセスを民主化し、アマチュアのスケッチが正確なイメージを生成できるようにします。
論文 参考訳(メタデータ) (2024-03-12T01:05:25Z) - Breathing Life Into Sketches Using Text-to-Video Priors [101.8236605955899]
スケッチは、人間が自分のアイデアを視覚的に伝えるために使う最も直感的で汎用性の高いツールの1つです。
本研究では,単一オブジェクトのスケッチに動きを自動的に付加する手法を提案する。
出力はベクトル表現で提供される短いアニメーションで、簡単に編集できる。
論文 参考訳(メタデータ) (2023-11-21T18:09:30Z) - SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation [111.2195741547517]
画像の画素表現に基づいて訓練されたテキスト条件付き拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
我々の目標は、プロでないユーザにスケッチを作成させ、一連の最適化プロセスを通じて物語をストーリーボードに変換することです。
論文 参考訳(メタデータ) (2023-08-27T19:44:44Z) - Towards Interactive Image Inpainting via Sketch Refinement [13.34066589008464]
そこで本研究では,SketchRefinerと呼ばれる2段階画像のインペイント手法を提案する。
第1段階では,クロス相関損失関数を用いて,ユーザが提供するスケッチを堅牢に校正し,洗練する。
第2段階では,特徴空間の抽象的スケッチから情報的特徴を抽出し,着色過程を変調する。
論文 参考訳(メタデータ) (2023-06-01T07:15:54Z) - DiffSketching: Sketch Control Image Synthesis with Diffusion Models [10.172753521953386]
スケッチ・ツー・イメージ合成のためのディープラーニングモデルは、視覚的な詳細なしに歪んだ入力スケッチを克服する必要がある。
我々のモデルは、クロスドメイン制約を通じてスケッチにマッチし、画像合成をより正確に導くために分類器を使用する。
我々のモデルは、生成品質と人的評価の点でGANベースの手法に勝ることができ、大規模なスケッチ画像データセットに依存しない。
論文 参考訳(メタデータ) (2023-05-30T07:59:23Z) - Sketch2Saliency: Learning to Detect Salient Objects from Human Drawings [99.9788496281408]
本研究では,スケッチを弱いラベルとして使用して,画像中の有能な物体を検出する方法について検討する。
これを実現するために,与えられた視覚写真に対応する逐次スケッチ座標を生成することを目的としたフォト・ツー・スケッチ生成モデルを提案する。
テストは、私たちの仮説を証明し、スケッチベースの唾液度検出モデルが、最先端技術と比較して、競争力のあるパフォーマンスを提供する方法を明確にします。
論文 参考訳(メタデータ) (2023-03-20T23:46:46Z) - Deep Plastic Surgery: Robust and Controllable Image Editing with
Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。
Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文 参考訳(メタデータ) (2020-01-09T08:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。