論文の概要: BankNote-Net: Open dataset for assistive universal currency recognition
- arxiv url: http://arxiv.org/abs/2204.03738v1
- Date: Thu, 7 Apr 2022 21:16:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 20:48:01.603180
- Title: BankNote-Net: Open dataset for assistive universal currency recognition
- Title(参考訳): banknote-net: ユニバーサル通貨認識を支援するオープンデータセット
- Authors: Felipe Oviedo, Srinivas Vinnakota, Eugene Seleznev, Hemant Malhotra,
Saqib Shaikh, Juan Lavista Ferres
- Abstract要約: 24,826枚の紙幣を様々な補助設定で収集し、17通貨112の紙幣を識別する。
教師付きコントラスト学習を用いて、ユニバーサル通貨認識のための機械学習モデルを開発する。
私たちは、Microsoftが開発したSeeing AIアプリの最後のバージョンで、このモデルのバリエーションをパブリックに使用するためにデプロイします。
- 参考スコア(独自算出の注目度): 2.2509387878255818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Millions of people around the world have low or no vision. Assistive software
applications have been developed for a variety of day-to-day tasks, including
optical character recognition, scene identification, person recognition, and
currency recognition. This last task, the recognition of banknotes from
different denominations, has been addressed by the use of computer vision
models for image recognition. However, the datasets and models available for
this task are limited, both in terms of dataset size and in variety of
currencies covered. In this work, we collect a total of 24,826 images of
banknotes in variety of assistive settings, spanning 17 currencies and 112
denominations. Using supervised contrastive learning, we develop a machine
learning model for universal currency recognition. This model learns compliant
embeddings of banknote images in a variety of contexts, which can be shared
publicly (as a compressed vector representation), and can be used to train and
test specialized downstream models for any currency, including those not
covered by our dataset or for which only a few real images per denomination are
available (few-shot learning). We deploy a variation of this model for public
use in the last version of the Seeing AI app developed by Microsoft. We share
our encoder model and the embeddings as an open dataset in our BankNote-Net
repository.
- Abstract(参考訳): 世界中の何百万人もの人々が視界を低くも全く持っていない。
光学的文字認識,シーン識別,個人認識,通貨認識など,日々のタスクに対する補助ソフトウェアアプリケーションの開発が進められている。
この最後の課題は、異なる分類による紙幣の認識であり、画像認識にコンピュータビジョンモデルを使用することによって解決されている。
しかし、このタスクで利用可能なデータセットとモデルは、データセットのサイズとさまざまな通貨の両方で制限されている。
本研究は,17通貨と112通貨にまたがる様々な支援的設定において,合計24,826枚の紙幣画像を集めたものである。
教師付きコントラスト学習を用いて,汎用通貨認識のための機械学習モデルを開発した。
このモデルは、(圧縮ベクトル表現として)公開することが可能な、さまざまなコンテキストにおける銀行券イメージの準拠した埋め込みを学習し、我々のデータセットでカバーされていないものを含む、任意の通貨の特別なダウンストリームモデルのトレーニングとテストに使用できる(few-shot learning)。
我々は、microsoftが開発したseeting aiアプリの最終バージョンで、このモデルのバリエーションを一般公開するためにデプロイします。
エンコーダモデルと埋め込みを,BankNote-Netリポジトリのオープンデータセットとして公開しています。
関連論文リスト
- General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - NLLB-CLIP -- train performant multilingual image retrieval model on a
budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文 参考訳(メタデータ) (2023-09-04T23:26:11Z) - The All-Seeing Project: Towards Panoptic Visual Recognition and
Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。
我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。
視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文 参考訳(メタデータ) (2023-08-03T17:59:47Z) - Rosetta Neurons: Mining the Common Units in a Model Zoo [33.514508896870346]
我々は、様々なモデルにまたがって「ロセッタニューロン」と呼ばれる共通機能の存在を実証する。
本稿では,ロゼッタニューロンの辞書を複数の一般的な視覚モデルでマイニングするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:59:54Z) - Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。
近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。
本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文 参考訳(メタデータ) (2022-07-09T01:56:35Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - Multi-modal embeddings using multi-task learning for emotion recognition [20.973999078271483]
word2vec、GloVe、ELMoといった一般的な埋め込みは、自然言語タスクで多くの成功を示している。
自然言語理解から、機械学習タスクに音声、視覚、テキスト情報を使用するマルチモーダルアーキテクチャまで、作業を拡張します。
論文 参考訳(メタデータ) (2020-09-10T17:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。