論文の概要: Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach
- arxiv url: http://arxiv.org/abs/2108.02399v1
- Date: Thu, 5 Aug 2021 06:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:40:25.780867
- Title: Webly Supervised Fine-Grained Recognition: Benchmark Datasets and An
Approach
- Title(参考訳): Webly Supervised Fine-Grained Recognition:ベンチマークデータセットとアプローチ
- Authors: Zeren Sun, Yazhou Yao, Xiu-Shen Wei, Yongshun Zhang, Fumin Shen,
Jianxin Wu, Jian Zhang, Heng-Tao Shen
- Abstract要約: WebFG-496 と WebiNat-5089 の2つの新しいベンチマークを構築した。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
そこで本研究では,これらのデータセットのベンチマークを行うための新しいウェブ教師付き手法("Peer-learning'" と呼ぶ)を提案する。
- 参考スコア(独自算出の注目度): 115.91099791629104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from the web can ease the extreme dependence of deep learning on
large-scale manually labeled datasets. Especially for fine-grained recognition,
which targets at distinguishing subordinate categories, it will significantly
reduce the labeling costs by leveraging free web data. Despite its significant
practical and research value, the webly supervised fine-grained recognition
problem is not extensively studied in the computer vision community, largely
due to the lack of high-quality datasets. To fill this gap, in this paper we
construct two new benchmark webly supervised fine-grained datasets, termed
WebFG-496 and WebiNat-5089, respectively. In concretely, WebFG-496 consists of
three sub-datasets containing a total of 53,339 web training images with 200
species of birds (Web-bird), 100 types of aircrafts (Web-aircraft), and 196
models of cars (Web-car). For WebiNat-5089, it contains 5089 sub-categories and
more than 1.1 million web training images, which is the largest webly
supervised fine-grained dataset ever. As a minor contribution, we also propose
a novel webly supervised method (termed ``{Peer-learning}'') for benchmarking
these datasets.~Comprehensive experimental results and analyses on two new
benchmark datasets demonstrate that the proposed method achieves superior
performance over the competing baseline models and states-of-the-art. Our
benchmark datasets and the source codes of Peer-learning have been made
available at
{\url{https://github.com/NUST-Machine-Intelligence-Laboratory/weblyFG-dataset}}.
- Abstract(参考訳): webからの学習は、大規模な手動ラベル付きデータセットへのディープラーニングの極端な依存を緩和する。
特に下位カテゴリの識別を目的とした微粒化認識では,自由なWebデータを活用することでラベル付けコストを大幅に削減する。
実用的、研究的な価値は大きいが、Webで制御される微粒化認識問題はコンピュータビジョンのコミュニティでは研究されていない。
そこで本稿では,webfg-496 と webinat-5089 と呼ばれる,web で教師あり細かなデータセットを2つのベンチマークで構築する。
具体的には、WebFG-496は、合計53,339個のWebトレーニングイメージと200種類の鳥(Web-bird)、100種類の航空機(Web-Aircraft)、196種類の自動車(Web-car)を含む3つのサブデータセットで構成されている。
WebiNat-5089には5089のサブカテゴリと1100万以上のWebトレーニングイメージが含まれている。
実験結果と2つのベンチマークデータセットの解析結果から,提案手法が競合するベースラインモデルや最先端技術よりも優れた性能を発揮することを示す。
ベンチマークデータセットとピアラーニングのソースコードは、https://github.com/NUST-Machine-Intelligence-Laboratory/weblyFG-dataset}}で公開されています。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。
本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文 参考訳(メタデータ) (2024-08-08T01:31:38Z) - The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale [30.955171096569618]
FineWebは96 Common Crawlスナップショットから派生した15トリリオンのトークンデータセットである。
FineWeb-Eduは、FineWebからフィルタリングされた教育用テキストの1.3トリリオントークンコレクションである。
論文 参考訳(メタデータ) (2024-06-25T13:50:56Z) - From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - ELFIS: Expert Learning for Fine-grained Image Recognition Using Subsets [6.632855264705276]
ファイングラインド・ビジュアル・認識のためのエキスパート・ラーニング・フレームワークであるELFISを提案する。
ニューラルネットワークベースのエキスパートのセットは、メタカテゴリに焦点を当ててトレーニングされ、マルチタスクフレームワークに統合される。
実験では、CNNとトランスフォーマーベースのネットワークを使用して、最大+1.3%の精度でSoTA FGVRベンチマークが改善された。
論文 参考訳(メタデータ) (2023-03-16T12:45:19Z) - GROWN+UP: A Graph Representation Of a Webpage Network Utilizing
Pre-training [0.2538209532048866]
我々は、Webページ構造を取り込み、大量のラベル付きデータに基づいて事前訓練を行い、Webページ上の任意のタスクに効果的に微調整できる、非依存のディープグラフニューラルネットワーク特徴抽出器を導入する。
我々は,Webページボイラプレートの除去とジャンル分類という,非常に異なる2つのベンチマークで複数のデータセットを用いて,事前学習したモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-03T13:37:27Z) - The Klarna Product Page Dataset: Web Element Nomination with Graph
Neural Networks and Large Language Models [51.39011092347136]
私たちはKlarna Product Pageデータセットを紹介します。これは、豊かさと多様性で既存のデータセットを超えるWebページの集合です。
我々は、Web要素指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。
第2に、各ページから少数の関連要素を識別する訓練改善手順を導入する。
第3に,推薦精度をさらに高める新たなトレーニング手法であるChallenge Nomination Training procedureを導入する。
論文 参考訳(メタデータ) (2021-11-03T12:13:52Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting and Localization [101.13851473792334]
我々は,5,109枚の画像からなる大規模集束群集NWPU-Crowdを構築し,合計2,133,375個の点と箱を付加したアノテートヘッドを構築した。
他の実世界のデータセットと比較すると、様々な照明シーンを含み、最大密度範囲 (020,033) を持つ。
本稿では,データ特性について述べるとともに,主要なSOTA(State-of-the-art)手法の性能を評価し,新たなデータに生じる問題を分析する。
論文 参考訳(メタデータ) (2020-01-10T09:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。