論文の概要: PatentNet: A Large-Scale Incomplete Multiview, Multimodal, Multilabel
Industrial Goods Image Database
- arxiv url: http://arxiv.org/abs/2106.12139v1
- Date: Wed, 23 Jun 2021 03:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 23:40:41.013789
- Title: PatentNet: A Large-Scale Incomplete Multiview, Multimodal, Multilabel
Industrial Goods Image Database
- Title(参考訳): patentnet: 大規模不完全なマルチビュー、マルチモーダル、マルチラベル産業製品画像データベース
- Authors: Fangyuan Lei, Da Huang, Jianjian Jiang, Ruijun Ma, Senhong Wang,
Jiangzhong Cao, Yusen Lin and Qingyun Dai
- Abstract要約: 本稿では,産業財画像と対応するテキストの多種多様で正確かつ詳細なアノテーションを備えた産業財データセットであるPatentNetを紹介する。
プロが手動でチェックした600万枚以上の画像とそれに対応する工業品のテキストの中で、PhilipsNetは初めて進行中の産業財画像データベースである。
画像分類,画像検索,不完全なマルチビュークラスタリングに関する広範な実験を通じて,我々の特許ネットはより多様性があり,複雑で,困難であることを示す。
- 参考スコア(独自算出の注目度): 3.0489474019962155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning area, large-scale image datasets bring a breakthrough in the
success of object recognition and retrieval. Nowadays, as the embodiment of
innovation, the diversity of the industrial goods is significantly larger, in
which the incomplete multiview, multimodal and multilabel are different from
the traditional dataset. In this paper, we introduce an industrial goods
dataset, namely PatentNet, with numerous highly diverse, accurate and detailed
annotations of industrial goods images, and corresponding texts. In PatentNet,
the images and texts are sourced from design patent. Within over 6M images and
corresponding texts of industrial goods labeled manually checked by
professionals, PatentNet is the first ongoing industrial goods image database
whose varieties are wider than industrial goods datasets used previously for
benchmarking. PatentNet organizes millions of images into 32 classes and 219
subclasses based on the Locarno Classification Agreement. Through extensive
experiments on image classification, image retrieval and incomplete multiview
clustering, we demonstrate that our PatentNet is much more diverse, complex,
and challenging, enjoying higher potentials than existing industrial image
datasets. Furthermore, the characteristics of incomplete multiview, multimodal
and multilabel in PatentNet are able to offer unparalleled opportunities in the
artificial intelligence community and beyond.
- Abstract(参考訳): ディープラーニング領域では、大規模な画像データセットがオブジェクト認識と検索の成功にブレークスルーをもたらす。
今日では、イノベーションの具体例として、産業品の多様性が著しく大きくなり、不完全なマルチビュー、マルチモーダル、マルチラベルが従来のデータセットとは異なる。
本稿では,産業製品画像および対応するテキストの多種多様な,正確かつ詳細なアノテーションを備えた産業製品データセットであるPatentNetを紹介する。
patentnetでは、画像とテキストは設計特許から引用される。
6m以上の画像と、専門家が手動でチェックした工業製品の対応するテキストの中で、パテントネットは、以前ベンチマークに使用されていた工業製品データセットよりも多種多様な産業製品画像データベースである。
patentnetは、ロカルノ分類協定に基づいて、何百万もの画像を32のクラスと219のサブクラスに分類する。
画像分類,画像検索,不完全なマルチビュークラスタリングに関する広範な実験を通じて,我々の特許ネットワークは,既存の産業画像データセットよりもはるかに多様性があり,複雑で,困難であり,高いポテンシャルを享受できることを実証した。
さらに、パテントネットにおける不完全なマルチビュー、マルチモーダル、マルチラベルの特徴は、人工知能コミュニティなどにおいて、別個の機会を提供することができる。
関連論文リスト
- Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - MMPKUBase: A Comprehensive and High-quality Chinese Multi-modal Knowledge Graph [13.098964050074438]
MMPKUBaseは中国のマルチモーダルな知識グラフで、鳥類、哺乳類、シダなどさまざまな領域を網羅している。
画像データを改良するために,原型コントラスト学習と分離フォレストアルゴリズムを用いる。
論文 参考訳(メタデータ) (2024-08-03T06:35:54Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Large Language Model Informed Patent Image Retrieval [0.0]
本稿では,特許画像特徴学習のための言語インフォームドな分散型マルチモーダルアプローチを提案する。
提案手法は, mAP +53.3%, Recall@10 +41.8%, MRR@10 +51.9%による画像に基づく特許検索において, 最先端ないし同等の性能を実現する。
論文 参考訳(メタデータ) (2024-04-30T08:45:16Z) - Multi-Tower Multi-Interest Recommendation with User Representation Repel [0.9867914513513453]
本稿では,ユーザ表現を補う新しい多層多目的フレームワークを提案する。
複数の大規模産業データセットにまたがる実験結果から,提案手法の有効性と一般化性が確認された。
論文 参考訳(メタデータ) (2024-03-08T07:36:14Z) - Classification of Visualization Types and Perspectives in Patents [9.123089032348311]
我々は、特許画像の可視化タイプと視点の分類に最先端のディープラーニング手法を採用する。
我々は、画像の観点から弱いラベル付きデータを提供するデータセットから、階層的な一連のクラスを導出する。
論文 参考訳(メタデータ) (2023-07-19T21:45:07Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Random Network Distillation as a Diversity Metric for Both Image and
Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。
私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文 参考訳(メタデータ) (2020-10-13T22:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。