論文の概要: Non-parametric spatially constrained local prior for scene parsing on
real-world data
- arxiv url: http://arxiv.org/abs/2006.12874v1
- Date: Tue, 23 Jun 2020 10:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:54:07.007883
- Title: Non-parametric spatially constrained local prior for scene parsing on
real-world data
- Title(参考訳): 実世界データを用いたシーン解析のための非パラメトリック空間制約付き局所前処理
- Authors: Ligang Zhang
- Abstract要約: 実写データを用いたシーン解析のための非パラメトリック空間制約型局所優先法(SCLP)を提案する。
SCLPは,問合せ画像中のオブジェクト間の相関関係について,長範囲と短範囲の両方のコンテキストをキャプチャする上で強力である。
SIFT Flow と PASCAL-Context ベンチマークデータセットを用いた実験により,スーパーピクセルレベルの視覚特徴と組み合わせたSCLPが,最先端のアプローチと比較して最高の性能を達成することが示された。
- 参考スコア(独自算出の注目度): 4.035753155957698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene parsing aims to recognize the object category of every pixel in scene
images, and it plays a central role in image content understanding and computer
vision applications. However, accurate scene parsing from unconstrained
real-world data is still a challenging task. In this paper, we present the
non-parametric Spatially Constrained Local Prior (SCLP) for scene parsing on
realistic data. For a given query image, the non-parametric SCLP is learnt by
first retrieving a subset of most similar training images to the query image
and then collecting prior information about object co-occurrence statistics
between spatial image blocks and between adjacent superpixels from the
retrieved subset. The SCLP is powerful in capturing both long- and short-range
context about inter-object correlations in the query image and can be
effectively integrated with traditional visual features to refine the
classification results. Our experiments on the SIFT Flow and PASCAL-Context
benchmark datasets show that the non-parametric SCLP used in conjunction with
superpixel-level visual features achieves one of the top performance compared
with state-of-the-art approaches.
- Abstract(参考訳): シーン解析はシーン画像中の各ピクセルのオブジェクトカテゴリを認識することを目的としており、画像コンテンツ理解やコンピュータビジョンアプリケーションにおいて中心的な役割を果たす。
しかし、制約のない現実世界のデータからの正確なシーン解析は依然として難しい課題である。
本稿では,実データを用いたシーン解析のための非パラメトリック空間制約付き局所前処理(sclp)を提案する。
与えられたクエリ画像に対して、非パラメトリックSCLPは、まず、最も類似したトレーニング画像のサブセットをクエリ画像に取得し、次いで、空間画像ブロックと、取得したサブセットから隣接スーパーピクセル間のオブジェクト共起統計に関する事前情報を収集することにより学習される。
SCLPは,問合せ画像におけるオブジェクト間の相関関係の長期的および短距離的コンテキストを捉え,従来の視覚的特徴と効果的に統合することにより,分類結果を洗練することができる。
SIFT Flow と PASCAL-Context ベンチマークデータセットを用いた実験により,超画素レベルの視覚特徴と組み合わせた非パラメトリックSCLPが,最先端のアプローチと比較して最高の性能の1つを達成できることが示された。
関連論文リスト
- Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models [21.17975741743583]
近年、CLIP(CLIP)のような事前訓練された視覚言語モデル(VLM)を用いて、クエリイメージ全体をより細かいテキスト記述と整合させることで、ゼロショットのパフォーマンスを著しく向上させることが発見されている。
本稿では, より詳細な記述は, 画像全体よりも, クエリ画像の局所的な領域とより効果的に整合する傾向があることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-05T04:08:41Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark [46.166955777187816]
本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
論文 参考訳(メタデータ) (2022-05-31T12:59:01Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - SGMNet: Scene Graph Matching Network for Few-Shot Remote Sensing Scene
Classification [14.016637774748677]
Few-Shot Remote Sensing Scene Classification (FSRSSC) は,新しいシーンクラスを少数の例で認識することを目的とした重要な課題である。
SGMNetと呼ばれるFSRSSCのための新しいシーングラフマッチングに基づくメタラーニングフレームワークを提案する。
UCMerced LandUse, WHU19, AID, NWPU-RESISC45データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-10-09T07:43:40Z) - Mining Contextual Information Beyond Image for Semantic Segmentation [37.783233906684444]
セマンティックイメージセグメンテーションにおける文脈集約問題について検討する。
個々の画像以外の文脈情報をマイニングして、ピクセル表現をさらに強化することを提案する。
提案手法は,既存のセグメンテーションフレームワークに強制的に組み込むことができる。
論文 参考訳(メタデータ) (2021-08-26T14:34:23Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。