論文の概要: Object-Centric Image Generation from Layouts
- arxiv url: http://arxiv.org/abs/2003.07449v2
- Date: Thu, 3 Dec 2020 16:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:15:26.513428
- Title: Object-Centric Image Generation from Layouts
- Title(参考訳): レイアウトからのオブジェクト中心画像生成
- Authors: Tristan Sylvain and Pengchuan Zhang and Yoshua Bengio and R Devon
Hjelm and Shikhar Sharma
- Abstract要約: 複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
- 参考スコア(独自算出の注目度): 93.10217725729468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent impressive results on single-object and single-domain image
generation, the generation of complex scenes with multiple objects remains
challenging. In this paper, we start with the idea that a model must be able to
understand individual objects and relationships between objects in order to
generate complex scenes well. Our layout-to-image-generation method, which we
call Object-Centric Generative Adversarial Network (or OC-GAN), relies on a
novel Scene-Graph Similarity Module (SGSM). The SGSM learns representations of
the spatial relationships between objects in the scene, which lead to our
model's improved layout-fidelity. We also propose changes to the conditioning
mechanism of the generator that enhance its object instance-awareness. Apart
from improving image quality, our contributions mitigate two failure modes in
previous approaches: (1) spurious objects being generated without corresponding
bounding boxes in the layout, and (2) overlapping bounding boxes in the layout
leading to merged objects in images. Extensive quantitative evaluation and
ablation studies demonstrate the impact of our contributions, with our model
outperforming previous state-of-the-art approaches on both the COCO-Stuff and
Visual Genome datasets. Finally, we address an important limitation of
evaluation metrics used in previous works by introducing SceneFID -- an
object-centric adaptation of the popular Fr{\'e}chet Inception Distance metric,
that is better suited for multi-object images.
- Abstract(参考訳): 単一オブジェクトおよび単一ドメイン画像生成に関する最近の印象的な結果にもかかわらず、複数のオブジェクトを持つ複雑なシーンの生成は依然として困難である。
本稿では、モデルが複雑なシーンをうまく生成するために、個々のオブジェクトとオブジェクト間の関係を理解できなければならないという考えから始める。
オブジェクト中心生成型逆ネットワーク(oc-gan)と呼ぶレイアウト・ツー・イメージ生成法は,新たなシーングラフ類似モジュール(sgsm)に依存している。
sgsmはシーン内のオブジェクト間の空間的関係の表現を学習し、このモデルによるレイアウト忠実性の向上に繋がる。
また,オブジェクトインスタンス認識性を向上させるジェネレータのコンディショニング機構の変更も提案する。
画像品質の改善以外にも,従来の手法では,(1)対応するバウンディングボックスを使わずに生成するスプリアスオブジェクト,(2)イメージ内のマージしたオブジェクトに重なり合うバウンディングボックスの2つの障害モードが緩和されている。
広範囲な定量的評価とアブレーション研究は,ココスタフと視覚ゲノムデータセットの両方に対するこれまでの最先端アプローチを上回って,我々の貢献が与えた影響を実証する。
最後に,マルチオブジェクト画像に適した一般的なfr{\'e}chetインセプション距離メトリックのオブジェクト中心適応であるscenefidを導入することで,先行研究で使用されている評価指標の重要な制限に対処する。
関連論文リスト
- SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects [20.978091381109294]
本稿では,単一画像から音声オブジェクトを生成する手法を提案する。
提案手法は,入力画像と視覚的に一致した音声オブジェクトを生成する。
実験の結果,本手法は音声によるオブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-21T20:41:32Z) - Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation [10.416673784744281]
本稿では,複数の参照画像特徴を対応オブジェクトにマージする重み付きマージ手法を提案する。
提案手法は,マルチオブジェクト・パーソナライズされた画像生成のためのConcept101データセットとDreamBoothデータセットの最先端技術よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T15:04:13Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - CoSformer: Detecting Co-Salient Object with Transformers [2.3148470932285665]
Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。
複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T02:39:12Z) - Exploiting Relationship for Complex-scene Image Generation [43.022978211274065]
本研究では,複数のオブジェクトをシーングラフとして関連づける関係認識型複素画像生成について考察する。
生成フレームワークに3つの大きなアップデートを提案する。
第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。
第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。
第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
論文 参考訳(メタデータ) (2021-04-01T09:21:39Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。