論文の概要: Text-guided Image-and-Shape Editing and Generation: A Short Survey
- arxiv url: http://arxiv.org/abs/2304.09244v1
- Date: Tue, 18 Apr 2023 19:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 16:25:11.043179
- Title: Text-guided Image-and-Shape Editing and Generation: A Short Survey
- Title(参考訳): テキストガイドによる画像と形状の編集と生成:短い調査
- Authors: Cheng-Kang Ted Chao and Yotam Gingold
- Abstract要約: 機械学習の最近の進歩の中で、アーティストの編集意図はテキストによっても駆動される。
本稿では,最先端(テキスト誘導)画像・形状生成技術に関する50以上の論文について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image and shape editing are ubiquitous among digital artworks. Graphics
algorithms facilitate artists and designers to achieve desired editing intents
without going through manually tedious retouching. In the recent advance of
machine learning, artists' editing intents can even be driven by text, using a
variety of well-trained neural networks. They have seen to be receiving an
extensive success on such as generating photorealistic images, artworks and
human poses, stylizing meshes from text, or auto-completion given image and
shape priors. In this short survey, we provide an overview over 50 papers on
state-of-the-art (text-guided) image-and-shape generation techniques. We start
with an overview on recent editing algorithms in the introduction. Then, we
provide a comprehensive review on text-guided editing techniques for 2D and 3D
independently, where each of its sub-section begins with a brief background
introduction. We also contextualize editing algorithms under recent implicit
neural representations. Finally, we conclude the survey with the discussion
over existing methods and potential research ideas.
- Abstract(参考訳): 画像と形状の編集はデジタルアートワークで広く使われている。
グラフィックアルゴリズムは、アーティストやデザイナーが手作業で面倒なリタッチをすることなく、望ましい編集意図を達成できるようにする。
最近の機械学習の進歩により、アーティストの編集意図は、様々な訓練されたニューラルネットワークを使用して、テキストによって駆動される。
彼らは、フォトリアリスティックな画像、アートワーク、人間のポーズ、テキストからのメッシュのスタイライゼーション、与えられた画像と形状の事前のオートコンプリートなど、広範な成功を収めている。
この短い調査で、最先端(テキスト誘導)画像および形状生成技術に関する50以上の論文の概要を示す。
まず,最近の編集アルゴリズムの概要について概説する。
次に,テキストガイドによる2次元と3次元の編集技術について,それぞれのサブセクションが短い背景紹介から始まり,個別にレビューする。
また,最近の暗黙のニューラル表現下での編集アルゴリズムのコンテキスト化も行う。
最後に,既存の手法と潜在的研究のアイデアに関する議論から,調査を締めくくった。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Fashion Style Editing with Generative Human Prior [9.854813629782681]
本研究の目的は,テキスト記述を用いた人間のイメージのファッションスタイルの操作である。
具体的には、生成した人間の先行性を活用し、学習した潜在空間をナビゲートすることでファッションスタイルの編集を実現する。
我々のフレームワークは、抽象的なファッション概念を人間のイメージにプロジェクションし、この分野にエキサイティングな新しいアプリケーションを導入することに成功している。
論文 参考訳(メタデータ) (2024-04-02T14:22:04Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - SKED: Sketch-guided Text-based 3D Editing [49.019881133348775]
我々は,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。
我々の手法は、異なる視点からの2つのガイドスケッチを使用して、既存のニューラルネットワークを変化させる。
本稿では,ベースインスタンスの密度と放射率を保ちつつ,所望の編集を生成する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-19T18:40:44Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - A Taxonomy of Prompt Modifiers for Text-To-Image Generation [6.903929927172919]
本稿では,3ヶ月のエスノグラフィー研究に基づいて,オンラインコミュニティの実践者が使用する6種類のプロンプト修飾剤を同定する。
プロンプト修飾子の新たな分類法は、テキスト・ツー・イメージ・ジェネレーションの実践を研究するための概念的な出発点となる。
本稿では,人間-コンピュータインタラクション分野における新しい創造的実践の機会について論じる。
論文 参考訳(メタデータ) (2022-04-20T06:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。