論文の概要: Visual Ground Truth Construction as Faceted Classification
- arxiv url: http://arxiv.org/abs/2202.08512v1
- Date: Thu, 17 Feb 2022 08:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 23:21:37.965397
- Title: Visual Ground Truth Construction as Faceted Classification
- Title(参考訳): 対面分類としての視覚的地上真理構築
- Authors: Fausto Giunchiglia, Mayukh Bagchi, Xiaolei Diao
- Abstract要約: アプローチの主な新規性は、視覚的種分化を利用した視覚特性から分類階層を構築するという事実にある。
提案手法は、音楽実験のImageNet階層に関する一連の実験によって検証される。
- 参考スコア(独自算出の注目度): 4.7590051176368915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in Machine Learning and Computer Vision has provided evidence of
systematic design flaws in the development of major object recognition
benchmark datasets. One such example is ImageNet, wherein, for several
categories of images, there are incongruences between the objects they
represent and the labels used to annotate them. The consequences of this
problem are major, in particular considering the large number of machine
learning applications, not least those based on Deep Neural Networks, that have
been trained on these datasets. In this paper we posit the problem to be the
lack of a knowledge representation (KR) methodology providing the foundations
for the construction of these ground truth benchmark datasets. Accordingly, we
propose a solution articulated in three main steps: (i) deconstructing the
object recognition process in four ordered stages grounded in the philosophical
theory of teleosemantics; (ii) based on such stratification, proposing a novel
four-phased methodology for organizing objects in classification hierarchies
according to their visual properties; and (iii) performing such classification
according to the faceted classification paradigm. The key novelty of our
approach lies in the fact that we construct the classification hierarchies from
visual properties exploiting visual genus-differentiae, and not from
linguistically grounded properties. The proposed approach is validated by a set
of experiments on the ImageNet hierarchy of musical experiments.
- Abstract(参考訳): 機械学習とコンピュータビジョンにおける最近の研究は、主要なオブジェクト認識ベンチマークデータセットの開発において体系的な設計欠陥の証拠を提供している。
例えば ImageNet では,いくつかのカテゴリのイメージに対して,表現対象とアノテートに使用するラベルとの間には矛盾がある。
この問題の結果は、特に多くの機械学習アプリケーション、特にこれらのデータセットに基づいてトレーニングされたDeep Neural Networksに基づくアプリケーションを考えると、大きなものだ。
本稿では,これらの基礎的真理ベンチマークデータセットの構築の基礎を提供する知識表現(kr)方法論の欠如が問題点であることを示す。
そこで本研究では,3つの主要なステップで記述された解を提案する。
(i) テレオースマン論の哲学理論に基づく4つの順序付け段階における物体認識過程の分解
(ii)このような階層化に基づき、その視覚特性に応じて分類階層内で物体を整理するための新しい4段階の方法論を提案している。
(iii)顔分類パラダイムに従ってこのような分類を行う。
アプローチの重要な新規性は、視覚的種分化を利用した視覚的特性から分類階層を構築し、言語的に基礎付けられた性質からではないという事実にある。
提案手法は、音楽実験のImageNet階層に関する一連の実験によって検証される。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Category-level Neural Field for Reconstruction of Partially Observed Objects in Indoor Environment [24.880495520422006]
シーン内に存在する同じカテゴリに属するオブジェクト間で有意義な共通3D情報を学習するカテゴリレベルのニューラルフィールドを提案する。
私たちのキーとなるアイデアは、観察された形状に基づいてオブジェクトを分類し、カテゴリレベルのモデルのより良いトレーニングを行うことです。
シミュレーションと実世界のデータセットによる実験により,いくつかのカテゴリで観測されていない部分の再構成を改善することが実証された。
論文 参考訳(メタデータ) (2024-06-12T13:09:59Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Incremental Image Labeling via Iterative Refinement [4.7590051176368915]
特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。
この避けられないバイアスにより、現在のコンピュータビジョンタスクのパフォーマンスはさらに低下する。
我々は、ラベリングプロセスを駆動するガイドラインを提供するために、知識表現(KR)ベースの方法論を導入する。
論文 参考訳(メタデータ) (2023-04-18T13:37:22Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Object Recognition as Classification of Visual Properties [5.1652563977194434]
本稿では,Ranganathanの4段階の顔付き知識組織プロセスに基づく物体認識プロセスを提案する。
我々は,オブジェクト認識リソースの構築を目的とした,現在進行中のMultiMedia UKCを紹介した。
論文 参考訳(メタデータ) (2021-12-20T13:50:07Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。