論文の概要: PartCraft: Crafting Creative Objects by Parts
- arxiv url: http://arxiv.org/abs/2407.04604v1
- Date: Fri, 5 Jul 2024 15:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 12:51:25.162436
- Title: PartCraft: Crafting Creative Objects by Parts
- Title(参考訳): PartCraft: 創造的なオブジェクトを部品で作る
- Authors: Kam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang,
- Abstract要約: 本稿では、ユーザが「選択」できることによって、生成的視覚AIにおける創造的制御を促進する。
私たちは初めて、創造的な努力のために、視覚的概念をパーツごとに選択できるようにしました。
選択された視覚概念を正確にキャプチャするきめ細かい生成。
- 参考スコア(独自算出の注目度): 128.30514851911218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper propels creative control in generative visual AI by allowing users to "select". Departing from traditional text or sketch-based methods, we for the first time allow users to choose visual concepts by parts for their creative endeavors. The outcome is fine-grained generation that precisely captures selected visual concepts, ensuring a holistically faithful and plausible result. To achieve this, we first parse objects into parts through unsupervised feature clustering. Then, we encode parts into text tokens and introduce an entropy-based normalized attention loss that operates on them. This loss design enables our model to learn generic prior topology knowledge about object's part composition, and further generalize to novel part compositions to ensure the generation looks holistically faithful. Lastly, we employ a bottleneck encoder to project the part tokens. This not only enhances fidelity but also accelerates learning, by leveraging shared knowledge and facilitating information exchange among instances. Visual results in the paper and supplementary material showcase the compelling power of PartCraft in crafting highly customized, innovative creations, exemplified by the "charming" and creative birds. Code is released at https://github.com/kamwoh/partcraft.
- Abstract(参考訳): 本稿では、ユーザが「選択できる」ことによって、生成的視覚AIにおける創造的制御を促進する。
従来のテキストやスケッチベースの手法とは別に、私たちは初めて、創造的な取り組みのために、視覚的な概念を部分的に選択できるようにしました。
その結果は、選択された視覚概念を正確に捉えたきめ細かな生成であり、ホリストリーに忠実で妥当な結果を保証する。
これを実現するために、私たちはまず、教師なしの機能クラスタリングを通じて、オブジェクトを部品にパースします。
そして、部品をテキストトークンにエンコードし、それらを操作するエントロピーベースの正規化注意損失を導入する。
この損失設計により、オブジェクトの部分構成に関する一般的な事前トポロジー知識を学習し、さらに新しい部分構成に一般化し、生成が一意に忠実に見えるようにすることができる。
最後に、部分トークンを投影するためにボトルネックエンコーダを使用します。
これは忠実性を高めるだけでなく、共有知識を活用し、インスタンス間の情報交換を促進することによって学習を促進する。
論文や補足資料の視覚的な結果は、高度にカスタマイズされた革新的な創造物を作る際に、PartCraftの魅力的な力を示しており、これは「チャーミング」と「創造的な鳥」によって実証されている。
コードはhttps://github.com/kamwoh/partcraft.comで公開されている。
関連論文リスト
- Crafting Parts for Expressive Object Composition [37.791770942390485]
PartCraftは、ベーステキストプロンプト内のオブジェクトに指定されたきめ細かい部分レベルの詳細に基づいた画像生成を可能にする。
PartCraftは、オブジェクト領域を特定の拡散プロセスから切り離すことで、まずオブジェクト部分をローカライズする。
部分マスクの取得後,各部分領域に微細な部分記述に基づいて局所拡散プロセスを実行する。
論文 参考訳(メタデータ) (2024-06-14T17:31:29Z) - Generated Contents Enrichment [11.196681396888536]
我々は、GCE(Generated Contents Enrichment)と呼ばれる新しい人工知能タスクを提案する。
提案したGCEは、視覚領域とテキスト領域の両方において、コンテンツ豊か化を明示的に行おうとしている。
GCEに対処するために,意味論と意味間関係を明確に探求するディープエンド・ツー・エンドの敵対手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:09Z) - GiGaMAE: Generalizable Graph Masked Autoencoder via Collaborative Latent
Space Reconstruction [76.35904458027694]
マスク付きオートエンコーダモデルは、グラフデータに対する優れた一般化能力に欠ける。
本稿では,GiGaMAEと呼ばれる新しいグラフマスマスキングオートエンコーダフレームワークを提案する。
私たちの結果は、グラフ構造化データに基づく基礎モデルの設計に光を当てます。
論文 参考訳(メタデータ) (2023-08-18T16:30:51Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Object Discovery from Motion-Guided Tokens [50.988525184497334]
自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化により強化する。
我々のアプローチは、解釈可能なオブジェクト固有の中間レベルの特徴の出現を可能にする。
論文 参考訳(メタデータ) (2023-03-27T19:14:00Z) - Distilled Reverse Attention Network for Open-world Compositional
Zero-Shot Learning [42.138756191997295]
Open-World Composal Zero-Shot Learning (OW-CZSL) は、目に見える属性やオブジェクトの新しい構成を認識することを目的としている。
従来のクローズドワールド・セッティング上に構築されたOW-CZSL法は、制約のないOW試験空間のために著しく劣化した。
本稿では,その課題に対処する新しいディスティルト・リバース・アテンション・ネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T10:52:20Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。
Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。
Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文 参考訳(メタデータ) (2020-06-26T15:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。