論文の概要: Design a Delicious Lunchbox in Style
- arxiv url: http://arxiv.org/abs/2305.14522v1
- Date: Mon, 22 May 2023 05:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 23:26:18.884612
- Title: Design a Delicious Lunchbox in Style
- Title(参考訳): 豪華なランチボックスをスタイルでデザインする
- Authors: Yutong Zhou
- Abstract要約: 本稿では,テキスト・ツー・イメージ合成のための空間的・チャネル的アテンションモジュールを備えた周期的生成対向ネットワークを提案する。
本研究では,事前訓練された注文回復モデルと生成的敵ネットワークを設計し,レイアウトと複合的ボックスランチの提示を予測した。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a cyclic generative adversarial network with spatial-wise and
channel-wise attention modules for text-to-image synthesis. To accurately
depict and design scenes with multiple occluded objects, we design a
pre-trained ordering recovery model and a generative adversarial network to
predict layout and composite novel box lunch presentations. In the experiments,
we devise the Bento800 dataset to evaluate the performance of the text-to-image
synthesis model and the layout generation & image composition model. This paper
is the continuation of our previous paper works. We also present additional
experiments and qualitative performance comparisons to verify the effectiveness
of our proposed method. Bento800 dataset is available at
https://github.com/Yutong-Zhou-cv/Bento800_Dataset
- Abstract(参考訳): 本稿では,テキスト対画像合成のための空間的およびチャネル的注意モジュールを有する循環生成型逆ネットワークを提案する。
複数の隠蔽物体でシーンを正確に描写・設計するために,事前訓練された注文回復モデルと生成対向ネットワークを設計し,レイアウトと複合的ボックスランチのプレゼンテーションを予測する。
実験では,テキスト・画像合成モデルとレイアウト生成・画像合成モデルの性能を評価するため,Bento800データセットを考案した。
この論文は、我々の以前の論文の継続である。
また,提案手法の有効性を検証するため,追加実験と質的性能比較を行った。
Bento800データセットはhttps://github.com/Yutong-Zhou-cv/Bento800_Datasetで利用可能である。
関連論文リスト
- Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Retrieval-Augmented Diffusion Models [11.278903078792917]
本稿では,拡散モデルを検索ベースアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。
CLIPの合同画像テキスト埋め込み空間を活用することで、我々のモデルは、明示的に訓練されていないタスクにおいて、非常に競争力のある性能を達成することができる。
我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。
論文 参考訳(メタデータ) (2022-04-25T17:55:26Z) - Combining Attention with Flow for Person Image Synthesis [55.670135403481275]
本稿では,注目操作とフローベース操作を組み合わせた新しいモデルを提案する。
本モデルでは,アテンション操作を利用して正確なターゲット構造を生成するだけでなく,フローベース操作を用いてリアルなソーステクスチャをサンプリングする。
論文 参考訳(メタデータ) (2021-08-04T03:05:39Z) - DocSynth: A Layout Guided Approach for Controllable Document Image
Synthesis [16.284895792639137]
本稿では,Doc Synthと呼ばれる新しい手法を用いて,所定のレイアウトに基づいて文書画像を自動的に合成する手法を提案する。
本研究では,ユーザによる参照として空間的レイアウト(オブジェクトカテゴリ付きバウンディングボックス)を考慮し,提案するDoc Synthモデルを用いて,現実的な文書画像の集合を生成する。
その結果,本モデルでは,複数のオブジェクトを用いて,現実的かつ多様な文書画像を生成することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T14:24:30Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。