論文の概要: Context-based Image Segment Labeling (CBISL)
- arxiv url: http://arxiv.org/abs/2011.00784v1
- Date: Mon, 2 Nov 2020 07:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:16:06.503443
- Title: Context-based Image Segment Labeling (CBISL)
- Title(参考訳): コンテキストベース画像セグメントラベリング(cbisl)
- Authors: Tobias Schlagenhauf, Yefeng Xia, J\"urgen Fleischer
- Abstract要約: 本稿では,画像中の意味的特徴(対象と位置)を復元することを目的とする。
本稿では,4方向PixelCNNと呼ばれる新しい手法を用いて,行方不明なオブジェクトを復元する手法を示す。
その結果,4方向モデルの方が1方向モデルより優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Working with images, one often faces problems with incomplete or unclear
information. Image inpainting can be used to restore missing image regions but
focuses, however, on low-level image features such as pixel intensity, pixel
gradient orientation, and color. This paper aims to recover semantic image
features (objects and positions) in images. Based on published gated PixelCNNs,
we demonstrate a new approach referred to as quadro-directional PixelCNN to
recover missing objects and return probable positions for objects based on the
context. We call this approach context-based image segment labeling (CBISL).
The results suggest that our four-directional model outperforms one-directional
models (gated PixelCNN) and returns a human-comparable performance.
- Abstract(参考訳): 画像を扱う場合、不完全な情報や不明瞭な情報に悩まされることが多い。
画像の塗装は画像領域の復元に使用することができるが、画素強度、画素方位方向、色などの低レベルの画像特徴に焦点を当てている。
本稿では,画像における意味的画像特徴(物体と位置)の復元を目的とする。
公開ゲート型画素cnnsに基づいて,行方不明のオブジェクトを回収し,コンテキストに基づいたオブジェクトの位置を返すために,四角方向pixelcnnと呼ばれる新しいアプローチを実証する。
このアプローチをコンテキストベース画像セグメントラベル (CBISL) と呼ぶ。
その結果,4方向モデルが1方向モデル(pixelcnn)を上回っており,人間比較可能な性能が得られることが示唆された。
関連論文リスト
- Depth-aware Panoptic Segmentation [1.4170154234094008]
本稿では, パンオプティカルセグメンテーションのための新しいCNN手法を提案する。
そこで本研究では,同じ物体に対して画素の割り当てを行う深度対応ダイス損失項を提案する。
Cityscapesデータセットで行った実験では、提案手法が誤って1つのインスタンスにマージされたオブジェクトの数を減少させることを示した。
論文 参考訳(メタデータ) (2024-03-21T08:06:49Z) - Context Does Matter: End-to-end Panoptic Narrative Grounding with
Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。
Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。
DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文 参考訳(メタデータ) (2023-10-25T13:12:39Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - SPColor: Semantic Prior Guided Exemplar-based Image Colorization [14.191819767895867]
本研究では,SPColorを提案する。
SPColorはまず、参照画像とターゲット画像のピクセルをセマンティック先行のガイダンスの下で複数の擬似クラスに分類する。
我々のモデルは、最近の最先端の手法を定量的にも質的にも、公開データセット上でも優れています。
論文 参考訳(メタデータ) (2023-04-13T04:21:45Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise
Semantic Labeling [48.30060717413166]
航空画像が与えられた場合、空中シーン解析(ASP)は、画像の各ピクセルにセマンティックラベルを割り当てることで、画像内容の意味構造を解釈する。
本稿では,Mario-AIDと呼ばれる100万件の航空画像を含む大規模シーン分類データセットを提案する。
また,古典的畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験を行い,ピクセルワイドなセマンティックラベリングを実現する。
論文 参考訳(メタデータ) (2022-01-06T07:40:47Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - The pursuit of beauty: Converting image labels to meaningful vectors [2.741266294612776]
本稿では,Occlusion-based Latent Representations (OLR) と呼ばれる手法を提案する。
情報豊かさに加えて、これらの表現は、各画像ラベルが別個のベクトルに符号化される非交叉低次元潜在空間を構成する。
我々は,これらの表現の質を一連の実験で評価し,その結果から,提案モデルがデータ概念を捕捉し,データ相互関係を発見できることが示唆された。
論文 参考訳(メタデータ) (2020-08-03T06:33:11Z) - Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics [60.92229707497999]
画像の特定の変換の識別に基づく自己教師型特徴学習の新しい原理を提案する。
実験により,LCI,画像ワープ,回転などの変換を識別する学習が,技術一般化能力の状態を特徴付けることを示した。
論文 参考訳(メタデータ) (2020-04-05T22:09:08Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。