論文の概要: Panoptic-based Object Style-Align for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2112.01926v1
- Date: Fri, 3 Dec 2021 14:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 15:49:05.205111
- Title: Panoptic-based Object Style-Align for Image-to-Image Translation
- Title(参考訳): 画像間翻訳のためのパノプティック・オブジェクトスタイルアライメント
- Authors: Liyun Zhang, Photchara Ratsamee, Bowen Wang, Manabu Higashida, Yuki
Uranishi, Haruo Takemura
- Abstract要約: 本稿では,画像から画像への変換を行うために,パノプティクスに基づくオブジェクトスタイル適応生成ネットワーク(POSA-GAN)を提案する。
提案手法は,異なる競合手法と体系的に比較し,画像の画質とオブジェクト認識性能に大きな改善を加えた。
- 参考スコア(独自算出の注目度): 2.226472061870956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable recent progress in image translation, the complex scene
with multiple discrepant objects remains a challenging problem. Because the
translated images have low fidelity and tiny objects in fewer details and
obtain unsatisfactory performance in object recognition. Without the thorough
object perception (i.e., bounding boxes, categories, and masks) of the image as
prior knowledge, the style transformation of each object will be difficult to
track in the image translation process. We propose panoptic-based object
style-align generative adversarial networks (POSA-GANs) for image-to-image
translation together with a compact panoptic segmentation dataset. The panoptic
segmentation model is utilized to extract panoptic-level perception (i.e.,
overlap-removed foreground object instances and background semantic regions in
the image). This is utilized to guide the alignment between the object content
codes of the input domain image and object style codes sampled from the style
space of the target domain. The style-aligned object representations are
further transformed to obtain precise boundaries layout for higher fidelity
object generation. The proposed method was systematically compared with
different competing methods and obtained significant improvement on both image
quality and object recognition performance for translated images.
- Abstract(参考訳): 画像翻訳の進歩は目覚ましいが、複数の離散オブジェクトを持つ複雑なシーンは依然として難しい問題である。
翻訳画像は忠実度が低く、細部も少ないため、物体認識において不満足な性能が得られる。
画像の完全なオブジェクト知覚(すなわち、バウンディングボックス、カテゴリ、マスク)が事前知識としてなければ、各オブジェクトのスタイル変換は、画像翻訳プロセスにおいて追跡することが困難になる。
本稿では,コンパクトなpanopticセグメンテーションデータセットと共に,画像から画像への変換を行うためのpanopticベースのオブジェクトスタイル・アレルゲン生成逆ネットワーク(posa-gans)を提案する。
パンオプティカルセグメンテーションモデルを用いて、パンオプティカルレベルの知覚(すなわち、重複除去された前景オブジェクトインスタンスと画像の背景意味領域)を抽出する。
これは、入力されたドメイン画像のオブジェクトコンテンツコードと対象ドメインのスタイル空間からサンプリングされたオブジェクトスタイルコードとの整合を誘導するために使用される。
スタイル整列オブジェクト表現はさらに変換され、高い忠実度オブジェクト生成のための正確な境界レイアウトが得られる。
提案手法は, 異なる競合手法と系統的に比較し, 画像品質と対象認識性能の両方において有意な改善が得られた。
関連論文リスト
- Improving Object Detection via Local-global Contrastive Learning [27.660633883387753]
本稿では,クロスドメインオブジェクト検出を対象とする画像から画像への変換手法を提案する。
ローカル・グローバル情報と対比することでオブジェクトを表現することを学ぶ。
これにより、ドメインシフトの下で、パフォーマンス検出(Performant detection)の取得という、未調査の課題の調査が可能になる。
論文 参考訳(メタデータ) (2024-10-07T14:18:32Z) - Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic
Narrative Grounding [43.657151728626125]
汎視的物語基盤は、物語キャプションの名詞句で表現された画像に物や物を分割することを目的としている。
本稿では,Phrase-Pixel-Object Transformer Decoder (PPO-TD)を提案する。
提案手法は,高いマージンを有する新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-02T08:55:28Z) - Open Compound Domain Adaptation with Object Style Compensation for
Semantic Segmentation [23.925791263194622]
本稿では,Object-Level Discrepancy Memoryを構築するObject Style Compensationを提案する。
我々は、ソースドメインとターゲットドメインの画像から相違点の特徴を学習し、相違点の特徴をメモリに格納する。
提案手法は,対象領域の画像に対する疑似アノテーションのより正確な計算を可能にする。
論文 参考訳(メタデータ) (2023-09-28T03:15:47Z) - SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-23T06:17:23Z) - Localizing Object-level Shape Variations with Text-to-Image Diffusion
Models [60.422435066544814]
本稿では,特定の物体の形状の変化を表現した画像の集合を生成する手法を提案する。
オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。
画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:45:08Z) - CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:53:42Z) - DALL-E for Detection: Language-driven Context Image Synthesis for Object
Detection [18.276823176045525]
本稿では,大規模なコンテキスト画像の自動生成のための新しいパラダイムを提案する。
我々のアプローチの核心は、文脈の言語記述と言語駆動画像生成の相互作用を利用することである。
本研究では,4つのオブジェクト検出データセットに対する事前の文脈画像生成手法に対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2022-06-20T06:43:17Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。