論文の概要: PatentNet: A Large-Scale Incomplete Multiview, Multimodal, Multilabel
Industrial Goods Image Database
- arxiv url: http://arxiv.org/abs/2106.12139v1
- Date: Wed, 23 Jun 2021 03:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 23:40:41.013789
- Title: PatentNet: A Large-Scale Incomplete Multiview, Multimodal, Multilabel
Industrial Goods Image Database
- Title(参考訳): patentnet: 大規模不完全なマルチビュー、マルチモーダル、マルチラベル産業製品画像データベース
- Authors: Fangyuan Lei, Da Huang, Jianjian Jiang, Ruijun Ma, Senhong Wang,
Jiangzhong Cao, Yusen Lin and Qingyun Dai
- Abstract要約: 本稿では,産業財画像と対応するテキストの多種多様で正確かつ詳細なアノテーションを備えた産業財データセットであるPatentNetを紹介する。
プロが手動でチェックした600万枚以上の画像とそれに対応する工業品のテキストの中で、PhilipsNetは初めて進行中の産業財画像データベースである。
画像分類,画像検索,不完全なマルチビュークラスタリングに関する広範な実験を通じて,我々の特許ネットはより多様性があり,複雑で,困難であることを示す。
- 参考スコア(独自算出の注目度): 3.0489474019962155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning area, large-scale image datasets bring a breakthrough in the
success of object recognition and retrieval. Nowadays, as the embodiment of
innovation, the diversity of the industrial goods is significantly larger, in
which the incomplete multiview, multimodal and multilabel are different from
the traditional dataset. In this paper, we introduce an industrial goods
dataset, namely PatentNet, with numerous highly diverse, accurate and detailed
annotations of industrial goods images, and corresponding texts. In PatentNet,
the images and texts are sourced from design patent. Within over 6M images and
corresponding texts of industrial goods labeled manually checked by
professionals, PatentNet is the first ongoing industrial goods image database
whose varieties are wider than industrial goods datasets used previously for
benchmarking. PatentNet organizes millions of images into 32 classes and 219
subclasses based on the Locarno Classification Agreement. Through extensive
experiments on image classification, image retrieval and incomplete multiview
clustering, we demonstrate that our PatentNet is much more diverse, complex,
and challenging, enjoying higher potentials than existing industrial image
datasets. Furthermore, the characteristics of incomplete multiview, multimodal
and multilabel in PatentNet are able to offer unparalleled opportunities in the
artificial intelligence community and beyond.
- Abstract(参考訳): ディープラーニング領域では、大規模な画像データセットがオブジェクト認識と検索の成功にブレークスルーをもたらす。
今日では、イノベーションの具体例として、産業品の多様性が著しく大きくなり、不完全なマルチビュー、マルチモーダル、マルチラベルが従来のデータセットとは異なる。
本稿では,産業製品画像および対応するテキストの多種多様な,正確かつ詳細なアノテーションを備えた産業製品データセットであるPatentNetを紹介する。
patentnetでは、画像とテキストは設計特許から引用される。
6m以上の画像と、専門家が手動でチェックした工業製品の対応するテキストの中で、パテントネットは、以前ベンチマークに使用されていた工業製品データセットよりも多種多様な産業製品画像データベースである。
patentnetは、ロカルノ分類協定に基づいて、何百万もの画像を32のクラスと219のサブクラスに分類する。
画像分類,画像検索,不完全なマルチビュークラスタリングに関する広範な実験を通じて,我々の特許ネットワークは,既存の産業画像データセットよりもはるかに多様性があり,複雑で,困難であり,高いポテンシャルを享受できることを実証した。
さらに、パテントネットにおける不完全なマルチビュー、マルチモーダル、マルチラベルの特徴は、人工知能コミュニティなどにおいて、別個の機会を提供することができる。
関連論文リスト
- MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [105.36623165770936]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Multi-Tower Multi-Interest Recommendation with User Representation Repel [1.1657633779338725]
本稿では,ユーザ表現を補う新しい多層多目的フレームワークを提案する。
複数の大規模産業データセットにまたがる実験結果から,提案手法の有効性と一般化性が確認された。
論文 参考訳(メタデータ) (2024-03-08T07:36:14Z) - Classification of Visualization Types and Perspectives in Patents [9.123089032348311]
我々は、特許画像の可視化タイプと視点の分類に最先端のディープラーニング手法を採用する。
我々は、画像の観点から弱いラベル付きデータを提供するデータセットから、階層的な一連のクラスを導出する。
論文 参考訳(メタデータ) (2023-07-19T21:45:07Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - Tailor Versatile Multi-modal Learning for Multi-label Emotion
Recognition [7.280460748655983]
マルチモーダルマルチラベル感情認識(MMER)は、異種視覚、音声、テキストのモダリティから様々な人間の感情を識別することを目的としている。
従来の手法は主に、複数のモダリティを共通の潜在空間に投影し、すべてのラベルに対して同じ表現を学ぶことに焦点を当てていた。
マルチモーダル表現を改良し,各ラベルの識別能力を高めることを目的とした,マルチモーダル音声認識(TAILOR)のための多目的マルチモーダル学習を提案する。
論文 参考訳(メタデータ) (2022-01-15T12:02:28Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z) - Random Network Distillation as a Diversity Metric for Both Image and
Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。
私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文 参考訳(メタデータ) (2020-10-13T22:03:52Z) - Multi-Domain Image Completion for Random Missing Input Data [17.53581223279953]
マルチドメインデータは、異なるモダリティからの相補的な情報を利用する視覚アプリケーションで広く活用されている。
データ破損と異なるイメージングプロトコルにより、各領域のイメージの可用性は複数のデータソースによって異なる可能性がある。
実アプリケーションでランダムに欠落したドメイン(s)データを補完する一般的な手法を提案する。
論文 参考訳(メタデータ) (2020-07-10T16:38:48Z) - A Convolutional Neural Network-based Patent Image Retrieval Method for
Design Ideation [5.195924252155368]
畳み込みニューラルネットワーク(CNN)を用いた特許画像検索手法を提案する。
このアプローチの中核は、Dual-VGGと呼ばれる新しいニューラルネットワークアーキテクチャである。
トレーニングタスクと特許画像埋め込み空間の精度を評価し,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-03-10T13:32:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。