Fugu-MT 論文翻訳(概要): PatentNet: A Large-Scale Incomplete Multiview, Multimodal, Multilabel Industrial Goods Image Database

論文の概要: PatentNet: A Large-Scale Incomplete Multiview, Multimodal, Multilabel Industrial Goods Image Database

arxiv url: http://arxiv.org/abs/2106.12139v1
Date: Wed, 23 Jun 2021 03:22:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-24 23:40:41.013789
Title: PatentNet: A Large-Scale Incomplete Multiview, Multimodal, Multilabel Industrial Goods Image Database
Title（参考訳）: patentnet: 大規模不完全なマルチビュー、マルチモーダル、マルチラベル産業製品画像データベース
Authors: Fangyuan Lei, Da Huang, Jianjian Jiang, Ruijun Ma, Senhong Wang, Jiangzhong Cao, Yusen Lin and Qingyun Dai
Abstract要約: 本稿では,産業財画像と対応するテキストの多種多様で正確かつ詳細なアノテーションを備えた産業財データセットであるPatentNetを紹介する。プロが手動でチェックした600万枚以上の画像とそれに対応する工業品のテキストの中で、PhilipsNetは初めて進行中の産業財画像データベースである。画像分類,画像検索,不完全なマルチビュークラスタリングに関する広範な実験を通じて,我々の特許ネットはより多様性があり,複雑で,困難であることを示す。
参考スコア（独自算出の注目度）: 3.0489474019962155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In deep learning area, large-scale image datasets bring a breakthrough in the success of object recognition and retrieval. Nowadays, as the embodiment of innovation, the diversity of the industrial goods is significantly larger, in which the incomplete multiview, multimodal and multilabel are different from the traditional dataset. In this paper, we introduce an industrial goods dataset, namely PatentNet, with numerous highly diverse, accurate and detailed annotations of industrial goods images, and corresponding texts. In PatentNet, the images and texts are sourced from design patent. Within over 6M images and corresponding texts of industrial goods labeled manually checked by professionals, PatentNet is the first ongoing industrial goods image database whose varieties are wider than industrial goods datasets used previously for benchmarking. PatentNet organizes millions of images into 32 classes and 219 subclasses based on the Locarno Classification Agreement. Through extensive experiments on image classification, image retrieval and incomplete multiview clustering, we demonstrate that our PatentNet is much more diverse, complex, and challenging, enjoying higher potentials than existing industrial image datasets. Furthermore, the characteristics of incomplete multiview, multimodal and multilabel in PatentNet are able to offer unparalleled opportunities in the artificial intelligence community and beyond.
Abstract（参考訳）: ディープラーニング領域では、大規模な画像データセットがオブジェクト認識と検索の成功にブレークスルーをもたらす。今日では、イノベーションの具体例として、産業品の多様性が著しく大きくなり、不完全なマルチビュー、マルチモーダル、マルチラベルが従来のデータセットとは異なる。本稿では,産業製品画像および対応するテキストの多種多様な,正確かつ詳細なアノテーションを備えた産業製品データセットであるPatentNetを紹介する。 patentnetでは、画像とテキストは設計特許から引用される。 6m以上の画像と、専門家が手動でチェックした工業製品の対応するテキストの中で、パテントネットは、以前ベンチマークに使用されていた工業製品データセットよりも多種多様な産業製品画像データベースである。 patentnetは、ロカルノ分類協定に基づいて、何百万もの画像を32のクラスと219のサブクラスに分類する。画像分類,画像検索,不完全なマルチビュークラスタリングに関する広範な実験を通じて,我々の特許ネットワークは,既存の産業画像データセットよりもはるかに多様性があり,複雑で,困難であり,高いポテンシャルを享受できることを実証した。さらに、パテントネットにおける不完全なマルチビュー、マルチモーダル、マルチラベルの特徴は、人工知能コミュニティなどにおいて、別個の機会を提供することができる。

関連論文リスト

Open Multimodal Retrieval-Augmented Factual Image Generation [86.34546873830152]
Factual Image Generation(FIG)のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを紹介する。 ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。実験により、ORIGは強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-10-26T04:13:31Z)
DesignCLIP: Multimodal Learning with CLIP for Design Patent Understanding [14.090575139188422]
我々は,米国におけるデザイン特許の大規模データセットを用いたデザイン特許アプリケーションのための統合フレームワークであるDesignCLIPを開発した。 DesignCLIPは、特許画像の詳細なキャプションとマルチビュー画像学習を利用して、クラス認識の分類とコントラスト学習を取り入れている。実験の結果,DesignCLIPはすべてのタスクにおいて,特許ドメインのベースラインモデルとSOTAモデルよりも一貫して優れていることがわかった。
論文参考訳（メタデータ） (2025-08-21T06:36:24Z)
Hierarchical Multi-Positive Contrastive Learning for Patent Image Retrieval [0.2970959580204573]
特許画像は、特許のイノベーションに関する情報を伝える技術図である。現在の方法は、ロカルノ国際分類システムで定義されたような特許の階層的関係を無視している。検索プロセスにおいて,その関係を導き出すために,LISPの分類を利用した階層的多陽性のコントラスト損失を導入する。
論文参考訳（メタデータ） (2025-06-16T13:53:02Z)
FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。 FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。 FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-31T16:12:48Z)
MVIP -- A Dataset and Methods for Application Oriented Multi-View and Multi-Modal Industrial Part Recognition [0.27309692684728604]
MVIPはマルチモーダルおよびマルチビューアプリケーション指向の産業部品認識のための新しいデータセットである。 MVIPの主な目的は、下流タスクにおける様々な最先端メソッドの転送可能性の研究とプッシュである。
論文参考訳（メタデータ） (2025-02-21T13:22:29Z)
PatentLMM: Large Multimodal Model for Generating Descriptions for Patent Figures [7.16446145782558]
patentDesc-355Kは,355Kの特許図と,その簡潔かつ詳細なテキスト記述を含む,新しい大規模データセットである。また,特許図の高品質な記述に特化して設計された多モーダル大規模言語モデルであるPatentLMMを提案する。提案する特許LMMは,特許図のユニークな構造的要素を捉えた特殊なマルチモーダル・ビジョン・エンコーダであるPatentMMEと,LLaMAのドメイン適応版であるPatentLLaMAの2つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2025-01-25T04:45:32Z)
Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。 MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文参考訳（メタデータ） (2024-11-26T02:23:31Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
MMPKUBase: A Comprehensive and High-quality Chinese Multi-modal Knowledge Graph [13.098964050074438]
MMPKUBaseは中国のマルチモーダルな知識グラフで、鳥類、哺乳類、シダなどさまざまな領域を網羅している。画像データを改良するために,原型コントラスト学習と分離フォレストアルゴリズムを用いる。
論文参考訳（メタデータ） (2024-08-03T06:35:54Z)
TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文参考訳（メタデータ） (2024-06-09T15:00:28Z)
Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。 COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-05-27T17:59:56Z)
Large Language Model Informed Patent Image Retrieval [0.0]
本稿では,特許画像特徴学習のための言語インフォームドな分散型マルチモーダルアプローチを提案する。提案手法は, mAP +53.3%, Recall@10 +41.8%, MRR@10 +51.9%による画像に基づく特許検索において, 最先端ないし同等の性能を実現する。
論文参考訳（メタデータ） (2024-04-30T08:45:16Z)
Multi-Tower Multi-Interest Recommendation with User Representation Repel [0.9867914513513453]
本稿では,ユーザ表現を補う新しい多層多目的フレームワークを提案する。複数の大規模産業データセットにまたがる実験結果から,提案手法の有効性と一般化性が確認された。
論文参考訳（メタデータ） (2024-03-08T07:36:14Z)
Classification of Visualization Types and Perspectives in Patents [9.123089032348311]
我々は、特許画像の可視化タイプと視点の分類に最先端のディープラーニング手法を採用する。我々は、画像の観点から弱いラベル付きデータを提供するデータセットから、階層的な一連のクラスを導出する。
論文参考訳（メタデータ） (2023-07-19T21:45:07Z)
Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-29T20:39:36Z)
Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は近年ホットな研究テーマになっている。近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文参考訳（メタデータ） (2021-12-27T10:00:16Z)
Random Network Distillation as a Diversity Metric for Both Image and Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文参考訳（メタデータ） (2020-10-13T22:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。