論文の概要: SAIR: Learning Semantic-aware Implicit Representation
- arxiv url: http://arxiv.org/abs/2310.09285v1
- Date: Fri, 13 Oct 2023 17:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 11:41:10.738647
- Title: SAIR: Learning Semantic-aware Implicit Representation
- Title(参考訳): SAIR: 意味認識の意図的表現を学ぶ
- Authors: Canyu Zhang, Xiaoguang Li, Qing Guo, Song Wang
- Abstract要約: 画像の暗示表現は、連続領域の任意の座標を対応する色値にマッピングすることができる。
既存の暗黙の表現アプローチは、連続した外見マッピングの構築にのみ焦点をあてる。
我々は,意味認識型暗黙表現(SAIR)を学習し,各画素の暗黙表現をその外観と意味情報の両方に依存するようにした。
- 参考スコア(独自算出の注目度): 23.842761556556216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit representation of an image can map arbitrary coordinates in the
continuous domain to their corresponding color values, presenting a powerful
capability for image reconstruction. Nevertheless, existing implicit
representation approaches only focus on building continuous appearance mapping,
ignoring the continuities of the semantic information across pixels. As a
result, they can hardly achieve desired reconstruction results when the
semantic information within input images is corrupted, for example, a large
region misses. To address the issue, we propose to learn semantic-aware
implicit representation (SAIR), that is, we make the implicit representation of
each pixel rely on both its appearance and semantic information (\eg, which
object does the pixel belong to). To this end, we propose a framework with two
modules: (1) building a semantic implicit representation (SIR) for a corrupted
image whose large regions miss. Given an arbitrary coordinate in the continuous
domain, we can obtain its respective text-aligned embedding indicating the
object the pixel belongs. (2) building an appearance implicit representation
(AIR) based on the SIR. Given an arbitrary coordinate in the continuous domain,
we can reconstruct its color whether or not the pixel is missed in the input.
We validate the novel semantic-aware implicit representation method on the
image inpainting task, and the extensive experiments demonstrate that our
method surpasses state-of-the-art approaches by a significant margin.
- Abstract(参考訳): 画像の暗示表現は、連続領域内の任意の座標を対応する色値にマッピングすることができ、画像再構成の強力な能力を示す。
それでも、既存の暗黙の表現アプローチは、ピクセル間のセマンティック情報の連続性を無視して、連続的な外見マッピングの構築にのみ焦点をあてている。
その結果、入力画像内の意味情報が破損した場合、例えば大きな領域が誤る場合に、所望の再構成結果が得られなくなる。
この問題に対処するために,各画素の暗黙的表現をその外見と意味情報(対象が属する画素)の両方に依存するように,意味認識型暗黙的表現(SAIR)を学習することを提案する。
そこで本研究では,(1)大領域が欠落した画像に対して意味的暗黙表現(SIR)を構築する,という2つのモジュールを持つフレームワークを提案する。
連続領域における任意の座標が与えられたとき、ピクセルが属する対象を示す各テキスト整列埋め込みが得られる。
2)SIRに基づく見かけの暗黙の表現(AIR)を構築する。
連続領域内の任意の座標が与えられると、その画素が入力に欠落しているか否かに関わらず、その色を再構成することができる。
画像認識タスクにおいて,新しい意味認識型暗黙的表現法を検証し,本手法が最先端のアプローチをかなりのマージンで超えていることを示す。
関連論文リスト
- Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding [101.32590239809113]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:59:41Z) - SuperInpaint: Learning Detail-Enhanced Attentional Implicit
Representation for Super-resolutional Image Inpainting [26.309834304515544]
我々はSuperInpaintと呼ばれる課題の画像復元タスクを導入する。
この課題は、低解像度画像中の欠落領域を再構築し、任意の高解像度画像を生成することである。
本論文では,SuperInpaintを1つのモデルで実現可能な細部強調型暗黙表現を提案する。
論文 参考訳(メタデータ) (2023-07-26T20:28:58Z) - Single Image Super-Resolution via a Dual Interactive Implicit Neural
Network [5.331665215168209]
本稿では,任意のスケール因子における単一画像の超解像処理のための新しい暗黙的ニューラルネットワークを提案する。
公開されているベンチマークデータセット上で、最先端技術に対するアプローチの有効性と柔軟性を実証する。
論文 参考訳(メタデータ) (2022-10-23T02:05:19Z) - Boosting Image Outpainting with Semantic Layout Prediction [18.819765707811904]
我々は、画像ドメインの代わりにセマンティックセグメンテーションドメイン内の領域を拡張するために、GANを訓練する。
別のGANモデルは、拡張されたセマンティックレイアウトに基づいて実際の画像を合成するように訓練されている。
我々のアプローチは意味的な手がかりをより容易に扱えるので、複雑なシナリオではよりうまく機能します。
論文 参考訳(メタデータ) (2021-10-18T13:09:31Z) - Dense Semantic Contrast for Self-Supervised Visual Representation
Learning [12.636783522731392]
意味圏決定境界を密度の高いレベルでモデル化するためのDense Semantic Contrast(DSC)を提案する。
本稿では,多粒度表現学習のためのクロスイメージ・セマンティック・コントラッシブ・ラーニング・フレームワークを提案する。
実験結果から,DSCモデルは下流の高密度予測タスクに転送する場合に,最先端の手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:04:05Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - AINet: Association Implantation for Superpixel Segmentation [82.21559299694555]
今回提案する新しいtextbfAssociation textbfImplantation(AI)モジュールは、ネットワークがピクセルとその周辺グリッド間の関係を明示的にキャプチャすることを可能にする。
本手法は最先端性能を実現するだけでなく,十分な推論効率を維持することができた。
論文 参考訳(メタデータ) (2021-01-26T10:40:13Z) - Learning Continuous Image Representation with Local Implicit Image
Function [21.27344998709831]
画像座標と座標周辺の2次元深部特徴を入力として捉えたLIIF表現を、所定の座標におけるRGB値を出力として予測する。
画像の連続表現を生成するために、LIIF表現のエンコーダをスーパーレゾリューションの自己監視タスクを介してトレーニングします。
学習された連続表現は任意の解像度で x30 の高分解能まで外挿することができる。
論文 参考訳(メタデータ) (2020-12-16T18:56:50Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。