論文の概要: Natural Scene Image Annotation Using Local Semantic Concepts and Spatial
Bag of Visual Words
- arxiv url: http://arxiv.org/abs/2210.09045v1
- Date: Mon, 17 Oct 2022 12:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:46:03.968219
- Title: Natural Scene Image Annotation Using Local Semantic Concepts and Spatial
Bag of Visual Words
- Title(参考訳): 局所意味概念と視覚単語の空間的バグを用いた自然シーン画像アノテーション
- Authors: Yousef Alqasrawi
- Abstract要約: 本稿では,事前に定義された語彙から局所的な意味ラベルを付加した自然なシーン画像の自動アノテーションフレームワークを提案する。
このフレームワークは、自然な場面では、中間的な意味概念が局所的なキーポイントと相関していると仮定する仮説に基づいている。
この仮説に基づいて、画像領域をBOWモデルで効率よく表現し、SVMのような機械学習アプローチを使用して、セマンティックアノテーションで画像領域をラベル付けすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of bag of visual words (BOW) model for modelling images based on
local invariant features computed at interest point locations has become a
standard choice for many computer vision tasks. Visual vocabularies generated
from image feature vectors are expected to produce visual words that are
discriminative to improve the performance of image annotation systems. Most
techniques that adopt the BOW model in annotating images declined favorable
information that can be mined from image categories to build discriminative
visual vocabularies. To this end, this paper introduces a detailed framework
for automatically annotating natural scene images with local semantic labels
from a predefined vocabulary. The framework is based on a hypothesis that
assumes that, in natural scenes, intermediate semantic concepts are correlated
with the local keypoints. Based on this hypothesis, image regions can be
efficiently represented by BOW model and using a machine learning approach,
such as SVM, to label image regions with semantic annotations. Another
objective of this paper is to address the implications of generating visual
vocabularies from image halves, instead of producing them from the whole image,
on the performance of annotating image regions with semantic labels. All
BOW-based approaches as well as baseline methods have been extensively
evaluated on 6-categories dataset of natural scenes using the SVM and KNN
classifiers. The reported results have shown the plausibility of using the BOW
model to represent the semantic information of image regions and thus to
automatically annotate image regions with labels.
- Abstract(参考訳): 多くのコンピュータビジョンタスクにおいて、関心点位置で計算された局所不変特徴に基づく画像モデリングに視覚単語袋(BOW)モデルが標準選択となっている。
画像特徴ベクトルから生成された視覚語彙は、画像アノテーションシステムの性能を向上させるために識別可能な視覚単語を生成することが期待されている。
画像の注釈付けにBOWモデルを採用するほとんどの技術は、識別的な視覚語彙を構築するために画像カテゴリから抽出できる好ましい情報を減らした。
そこで本稿では,事前に定義された語彙から,自然シーン画像に局所的な意味ラベルを付加する詳細なフレームワークを提案する。
このフレームワークは、自然な場面では、中間的な意味概念が局所的なキーポイントと関連付けられると仮定する仮説に基づいている。
この仮説に基づいて、画像領域をBOWモデルで効率的に表現し、SVMのような機械学習アプローチを用いて意味アノテーションで画像領域をラベル付けすることができる。
本研究の目的は,画像の全体から生成する代わりに,画像から視覚語彙を生成することの意義を,意味ラベルを付加した注釈付き画像領域の性能に対処することである。
BOWに基づくアプローチとベースライン手法は、SVMとKNNの分類器を用いて、自然シーンの6カテゴリのデータセットで広く評価されている。
以上の結果から,BOWモデルを用いて画像領域の意味情報を表現し,ラベル付き画像領域の自動アノテートを行う可能性が示唆された。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z) - Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images [0.0]
我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-20T08:26:38Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。