論文の概要: Halluci-Net: Scene Completion by Exploiting Object Co-occurrence
Relationships
- arxiv url: http://arxiv.org/abs/2004.08614v2
- Date: Fri, 21 May 2021 03:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:09:34.550264
- Title: Halluci-Net: Scene Completion by Exploiting Object Co-occurrence
Relationships
- Title(参考訳): Halluci-Net:オブジェクト共起関係の爆発によるシーン補完
- Authors: Kuldeep Kulkarni, Tejas Gokhale, Rajhans Singh, Pavan Turaga, Aswin
Sankaranarayanan
- Abstract要約: 本研究では、シーン内のオブジェクト間の共起関係を学習し、それらの関係を利用して、密で完全なラベルマップを生成する2段階のディープ・ネットワーク・ベース手法であるHaluci-Netを提案する。
生成された高密度ラベルマップは、pix2pixHDのような最先端の画像合成技術によって入力され、最終的な画像が得られる。
- 参考スコア(独自算出の注目度): 10.321117790264198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been substantial progress in image synthesis from
semantic labelmaps. However, methods used for this task assume the availability
of complete and unambiguous labelmaps, with instance boundaries of objects, and
class labels for each pixel. This reliance on heavily annotated inputs
restricts the application of image synthesis techniques to real-world
applications, especially under uncertainty due to weather, occlusion, or noise.
On the other hand, algorithms that can synthesize images from sparse labelmaps
or sketches are highly desirable as tools that can guide content creators and
artists to quickly generate scenes by simply specifying locations of a few
objects. In this paper, we address the problem of complex scene completion from
sparse labelmaps. Under this setting, very few details about the scene (30\% of
object instances) are available as input for image synthesis. We propose a
two-stage deep network based method, called `Halluci-Net', that learns
co-occurence relationships between objects in scenes, and then exploits these
relationships to produce a dense and complete labelmap. The generated dense
labelmap can then be used as input by state-of-the-art image synthesis
techniques like pix2pixHD to obtain the final image. The proposed method is
evaluated on the Cityscapes dataset and it outperforms two baselines methods on
performance metrics like Fr\'echet Inception Distance (FID), semantic
segmentation accuracy, and similarity in object co-occurrences. We also show
qualitative results on a subset of ADE20K dataset that contains bedroom images.
- Abstract(参考訳): 近年,意味的ラベルマップから画像合成が大幅に進歩している。
しかしながら、このタスクで使用されるメソッドは、オブジェクトのインスタンス境界と各ピクセルのクラスラベルを含む、完全かつ曖昧なラベルマップの可用性を前提としている。
この注釈付き入力への依存は、特に天候、閉塞、ノイズによる不確実性の下で、実世界の応用に画像合成技術の応用を制限する。
一方で、疎なラベルマップやスケッチから画像を合成するアルゴリズムは、コンテンツクリエーターやアーティストがいくつかのオブジェクトの場所を単純に指定することによって、シーンを素早く生成できるようにガイドするツールとして、非常に望ましい。
本稿では,スパースラベルマップから複雑なシーンを補完する問題に対処する。
この設定の下では、画像合成の入力としてシーンの詳細(オブジェクトインスタンスの30%)はごくわずかである。
本研究では,シーン内のオブジェクト間の共起関係を学習し,これらの関係を利用して高密度かつ完全なラベルマップを生成する2段階の深層ネットワークベース手法であるhalluci-netを提案する。
生成された高密度ラベルマップは、pix2pixHDのような最先端の画像合成技術によって入力され、最終的な画像が得られる。
提案手法はCityscapesデータセットに基づいて評価され,Fr'echet Inception Distance(FID)やセマンティックセグメンテーションの精度,オブジェクト共起の類似性など,パフォーマンス指標の2つのベースライン手法よりも優れている。
また、寝室画像を含むADE20Kデータセットのサブセットに定性的な結果を示す。
関連論文リスト
- ReFit: A Framework for Refinement of Weakly Supervised Semantic
Segmentation using Object Border Fitting for Medical Images [4.945138408504987]
Weakly Supervised Semantic (WSSS)は、画像レベルの監視のみに依存しているため、ネットワークの必要性に対処する上で有望なアプローチである。
本稿では,最新クラスのアクティベーションマップとポストプロセッシング手法を組み合わせたReFitフレームワークを提案する。
本手法をWSSS予測に適用することにより,医用画像の最先端WSSS法に対して最大10%の改善を実現した。
論文 参考訳(メタデータ) (2023-03-14T12:46:52Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Automatic dataset generation for specific object detection [6.346581421948067]
本研究では,オブジェクトの詳細な特徴を,無関係な情報を得ることなく保存することができるオブジェクト・イン・シーン・イメージの合成手法を提案する。
その結果,合成画像では,物体の境界が背景とよく一致していることがわかった。
論文 参考訳(メタデータ) (2022-07-16T07:44:33Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images [0.0]
我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-20T08:26:38Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。