論文の概要: Pluralistic Image Completion with Probabilistic Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2205.09086v1
- Date: Wed, 18 May 2022 17:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 12:48:14.542708
- Title: Pluralistic Image Completion with Probabilistic Mixture-of-Experts
- Title(参考訳): 確率論的混合による複数画像補完
- Authors: Xiaobo Xia, Wenhao Yang, Jie Ren, Yewen Li, Yibing Zhan, Bo Han,
Tongliang Liu
- Abstract要約: 本稿では,画像補完における複雑な相互作用を表す統一確率グラフモデルを提案する。
画像補完の手順全体を数学的にいくつかのサブプロデューサに分割し、制約の効率的な適用を支援する。
GMMの固有のパラメータはタスク関連であり、トレーニング中に適応的に最適化され、プリミティブの数は、結果の多様性を便利に制御できる。
- 参考スコア(独自算出の注目度): 58.81469985455467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pluralistic image completion focuses on generating both visually realistic
and diverse results for image completion. Prior methods enjoy the empirical
successes of this task. However, their used constraints for pluralistic image
completion are argued to be not well interpretable and unsatisfactory from two
aspects. First, the constraints for visual reality can be weakly correlated to
the objective of image completion or even redundant. Second, the constraints
for diversity are designed to be task-agnostic, which causes the constraints to
not work well. In this paper, to address the issues, we propose an end-to-end
probabilistic method. Specifically, we introduce a unified probabilistic graph
model that represents the complex interactions in image completion. The entire
procedure of image completion is then mathematically divided into several
sub-procedures, which helps efficient enforcement of constraints. The
sub-procedure directly related to pluralistic results is identified, where the
interaction is established by a Gaussian mixture model (GMM). The inherent
parameters of GMM are task-related, which are optimized adaptively during
training, while the number of its primitives can control the diversity of
results conveniently. We formally establish the effectiveness of our method and
demonstrate it with comprehensive experiments.
- Abstract(参考訳): 複数の画像補完は、視覚的に現実的で多様な結果を生成することに焦点を当てている。
以前の方法は、このタスクの実証的な成功を享受する。
しかし、それらの多元像完備化の制約は2つの側面から十分に解釈可能で満足できないと論じられている。
まず、視覚現実に対する制約は、画像補完の目的や冗長性に弱く相関することができる。
第二に、多様性の制約はタスクに依存しないように設計されているため、制約はうまく機能しない。
本稿では,この問題に対処するため,エンドツーエンドの確率的手法を提案する。
具体的には、画像補完における複雑な相互作用を表す統一確率グラフモデルを導入する。
画像補完の手順全体を数学的にいくつかのサブプロデューサに分割し、制約の効率的な適用を支援する。
相互作用がガウス混合モデル(gmm)によって確立される多元的結果に直接関連するサブ手続きを特定する。
GMMの固有のパラメータはタスク関連であり、トレーニング中に適応的に最適化され、プリミティブの数は、結果の多様性を便利に制御できる。
本手法の有効性を正式に確立し,包括的実験により実証する。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - SemFlow: Binding Semantic Segmentation and Image Synthesis via Rectified Flow [94.90853153808987]
セマンティックセグメンテーション(Semantic segmentation)とセマンティックイメージ合成(Semantic image synthesis)は、視覚知覚と生成において代表的なタスクである。
我々は、統一されたフレームワーク(SemFlow)を提案し、それらを2つの逆問題としてモデル化する。
実験の結果,セマンティックセグメンテーションとセマンティック画像合成タスクにおいて,セマンティックセグメンテーションと競合する結果が得られた。
論文 参考訳(メタデータ) (2024-05-30T17:34:40Z) - Multi-Task Learning with Multi-Task Optimization [31.518330903602095]
最適化されているが、よく分散されたモデルの集合が、1つのアルゴリズムパスで異なるトレードオフを具現化していることを示す。
様々な問題設定を解決するために,マルチタスク最適化を用いたマルチタスク学習を提案する。
論文 参考訳(メタデータ) (2024-03-24T14:04:40Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Large Scale Image Completion via Co-Modulated Generative Adversarial
Networks [18.312552957727828]
画像条件と最近の非条件生成アーキテクチャのギャップを埋める汎用的な新しいアプローチを提案する。
また,画像補完のための定量的指標が不十分なため,Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)を提案する。
実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。
論文 参考訳(メタデータ) (2021-03-18T17:59:11Z) - DiverseNet: When One Right Answer is not Enough [35.764028730120096]
テスト時間クエリ毎に多様な構造化された予測を可能にするニューラルネットワークのトレーニング方法を提案する。
提案手法は,2次元画像補完,3次元ボリューム推定,フロー予測という3つの課題にまたがって定量的な改善をもたらす。
論文 参考訳(メタデータ) (2020-08-24T18:12:49Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。