論文の概要: Scene Recognition with Objectness, Attribute and Category Learning
- arxiv url: http://arxiv.org/abs/2207.10174v1
- Date: Wed, 20 Jul 2022 19:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:20:16.614203
- Title: Scene Recognition with Objectness, Attribute and Category Learning
- Title(参考訳): 対象性・属性・カテゴリー学習を用いたシーン認識
- Authors: Ji Zhang, Jean-Paul Ainam, Li-hui Zhao, Wenai Song, and Xin Wang
- Abstract要約: シーン分類は、それ自体が挑戦的な研究課題として確立されている。
画像認識は、シーン認識の優れたパフォーマンスの鍵となる。
本稿では,カテゴリ埋め込みを学習し,同時にシーン特性を予測するマルチタスク属性・シーン認識ネットワークを提案する。
- 参考スコア(独自算出の注目度): 8.581276116041401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene classification has established itself as a challenging research
problem. Compared to images of individual objects, scene images could be much
more semantically complex and abstract. Their difference mainly lies in the
level of granularity of recognition. Yet, image recognition serves as a key
pillar for the good performance of scene recognition as the knowledge attained
from object images can be used for accurate recognition of scenes. The existing
scene recognition methods only take the category label of the scene into
consideration. However, we find that the contextual information that contains
detailed local descriptions are also beneficial in allowing the scene
recognition model to be more discriminative. In this paper, we aim to improve
scene recognition using attribute and category label information encoded in
objects. Based on the complementarity of attribute and category labels, we
propose a Multi-task Attribute-Scene Recognition (MASR) network which learns a
category embedding and at the same time predicts scene attributes. Attribute
acquisition and object annotation are tedious and time consuming tasks. We
tackle the problem by proposing a partially supervised annotation strategy in
which human intervention is significantly reduced. The strategy provides a much
more cost-effective solution to real world scenarios, and requires considerably
less annotation efforts. Moreover, we re-weight the attribute predictions
considering the level of importance indicated by the object detected scores.
Using the proposed method, we efficiently annotate attribute labels for four
large-scale datasets, and systematically investigate how scene and attribute
recognition benefit from each other. The experimental results demonstrate that
MASR learns a more discriminative representation and achieves competitive
recognition performance compared to the state-of-the-art methods
- Abstract(参考訳): シーン分類は、困難な研究課題として確立されている。
個々のオブジェクトのイメージと比較すると、シーンイメージはずっと意味的に複雑で抽象的である。
彼らの違いは、主に認識の粒度のレベルにある。
しかし,物体画像から得られる知識は,シーンの正確な認識に利用できるため,画像認識はシーン認識の優れたパフォーマンスの鍵となる。
既存のシーン認識手法は、シーンのカテゴリラベルのみを考慮に入れている。
しかし, 詳細なローカル記述を含む文脈情報も, シーン認識モデルをより識別しやすくする上で有益であることがわかった。
本稿では,オブジェクトに符号化された属性とカテゴリラベル情報を用いて,シーン認識を改善することを目的とする。
属性とカテゴリラベルの相補性に基づいて,カテゴリ埋め込みを学習し,同時にシーン属性を予測するマルチタスク属性・シーン認識(MASR)ネットワークを提案する。
属性取得とオブジェクトアノテーションは面倒で時間のかかるタスクです。
人間の介入を著しく減らした部分教師付きアノテーション戦略を提案することで,この問題に対処する。
この戦略は現実世界のシナリオに対してよりコスト効率の良いソリューションを提供し、アノテーションの労力を大幅に削減する。
さらに,対象が検出したスコアの重要度を考慮した属性予測の再重み付けを行った。
提案手法では,4つの大規模データセットに対して属性ラベルを効率的にアノテートし,シーンと属性認識の相互効果を体系的に検証する。
実験の結果,masrはより識別的な表現を習得し,最先端手法と比較して競争力のある認識性能を実現することが示された。
関連論文リスト
- Learning Scene Context Without Images [2.8184014933789365]
本研究では,アテンション機構を用いてシーンコンテキストの知識を機械に教える新しい手法を提案する。
提案手法の特筆すべき側面は、シーンコンテキストを教えるための画像データセットからのラベルのみに依存することである。
本研究では,異なるオブジェクト間のシーンワイドな関係を自己認識機構を用いて学習する方法を示す。
論文 参考訳(メタデータ) (2023-11-18T07:27:25Z) - Inter-object Discriminative Graph Modeling for Indoor Scene Recognition [5.712940060321454]
本稿では,シーン特徴表現を強化するために,識別対象知識を活用することを提案する。
画素レベルのシーン特徴をノードとして定義する識別グラフネットワーク(DGN)を構築する。
提案した IODP と DGN を用いて, 広く使用されているシーンデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2023-11-10T08:07:16Z) - EnTri: Ensemble Learning with Tri-level Representations for Explainable Scene Recognition [27.199124692225777]
ディープラーニングに基づくシーン認識は大きな進歩を遂げているが、その性能にはまだ限界がある。
本稿では,視覚的特徴の階層構造を用いたアンサンブル学習フレームワークであるEnTriを提案する。
EnTriは認識精度の点で優れており、最先端のアプローチと比較して競争性能が向上している。
論文 参考訳(メタデータ) (2023-07-23T22:11:23Z) - Learning Dense Object Descriptors from Multiple Views for Low-shot
Category Generalization [27.583517870047487]
本稿では、カテゴリやセマンティックなオブジェクト部分ラベルを使わずに、オブジェクトインスタンスの複数のビューからトレーニングできるDeep Object Patch rimis(DOPE)を提案する。
DOPEを訓練するために、物体の視界間の画素レベルの対応を得るために、スパースディープ、フォアグラウンドマスク、および既知のカメラへのアクセスを仮定する。
DOPEは, 局所的マッチングを用いて, 新規カテゴリーの低ショット分類に利用でき, 教師付き学習ベースラインや自己教師型学習ベースラインと競合し, 優れることがわかった。
論文 参考訳(メタデータ) (2022-11-28T04:31:53Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。