論文の概要: A semantics-driven methodology for high-quality image annotation
- arxiv url: http://arxiv.org/abs/2307.14119v1
- Date: Wed, 26 Jul 2023 11:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 12:38:56.822842
- Title: A semantics-driven methodology for high-quality image annotation
- Title(参考訳): 高画質画像アノテーションのためのセマンティクス駆動手法
- Authors: Fausto Giunchiglia, Mayukh Bagchi and Xiaolei Diao
- Abstract要約: 本稿では,統合自然言語処理,知識表現,コンピュータビジョンの方法論であるvTelosを提案する。
vTelosの重要な要素は、WordNetのレキシコセマンティック階層を、自然言語ラベルの意味を提供する主要な手段として利用することである。
この手法はImageNet階層のサブセットをポップアップさせるイメージ上で検証される。
- 参考スコア(独自算出の注目度): 4.7590051176368915
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work in Machine Learning and Computer Vision has highlighted the
presence of various types of systematic flaws inside ground truth object
recognition benchmark datasets. Our basic tenet is that these flaws are rooted
in the many-to-many mappings which exist between the visual information encoded
in images and the intended semantics of the labels annotating them. The net
consequence is that the current annotation process is largely under-specified,
thus leaving too much freedom to the subjective judgment of annotators. In this
paper, we propose vTelos, an integrated Natural Language Processing, Knowledge
Representation, and Computer Vision methodology whose main goal is to make
explicit the (otherwise implicit) intended annotation semantics, thus
minimizing the number and role of subjective choices. A key element of vTelos
is the exploitation of the WordNet lexico-semantic hierarchy as the main means
for providing the meaning of natural language labels and, as a consequence, for
driving the annotation of images based on the objects and the visual properties
they depict. The methodology is validated on images populating a subset of the
ImageNet hierarchy.
- Abstract(参考訳): 機械学習とコンピュータビジョンにおける最近の研究は、ground truth object recognition benchmarkデータセット内に様々な種類の体系的欠陥があることを強調している。
我々の基本的な特徴は、これらの欠陥は画像に符号化された視覚情報とそれらに注釈を付けるラベルの意図した意味との間に存在する多対多のマッピングに根ざしているということだ。
その結果、現在のアノテーションプロセスはほとんど仕様が不明確であり、アノテータの主観的な判断に多くの自由が残されている。
本稿では, 自然言語処理, 知識表現, コンピュータビジョンの方法論であるvTelosを提案する。その目的は, 暗黙的に意図する意味意味論を明確にすることであり, 主観的選択の数と役割を最小化することである。
vtelos の重要な要素は、自然言語ラベルの意味を提供する主要な手段として wordnet lexico-semantic hierarchy を活用し、結果として、オブジェクトと彼らが描いた視覚特性に基づいて画像のアノテーションを駆動することである。
この方法論はimagenet階層のサブセットをポピュレートするイメージ上で検証される。
関連論文リスト
- A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Incremental Image Labeling via Iterative Refinement [4.7590051176368915]
特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。
この避けられないバイアスにより、現在のコンピュータビジョンタスクのパフォーマンスはさらに低下する。
我々は、ラベリングプロセスを駆動するガイドラインを提供するために、知識表現(KR)ベースの方法論を導入する。
論文 参考訳(メタデータ) (2023-04-18T13:37:22Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Semantic-Aware Fine-Grained Correspondence [8.29030327276322]
本稿では,画像レベルの自己教師付き手法を用いて,セマンティック・アウェアのきめ細かな対応を学習する。
我々は,微粒な対応を特に狙う画素レベルの自己教師型学習目標を設計する。
本手法は,様々な視覚対応タスクにおける畳み込みネットワークを用いた従来の自己教師手法を超越した手法である。
論文 参考訳(メタデータ) (2022-07-21T12:51:41Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。