論文の概要: DesignCLIP: Multimodal Learning with CLIP for Design Patent Understanding
- arxiv url: http://arxiv.org/abs/2508.15297v1
- Date: Thu, 21 Aug 2025 06:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.21225
- Title: DesignCLIP: Multimodal Learning with CLIP for Design Patent Understanding
- Title(参考訳): DesignCLIP: デザイン特許理解のためのCLIPによるマルチモーダル学習
- Authors: Zhu Wang, Homaira Huda Shomee, Sathya N. Ravi, Sourav Medya,
- Abstract要約: 我々は,米国におけるデザイン特許の大規模データセットを用いたデザイン特許アプリケーションのための統合フレームワークであるDesignCLIPを開発した。
DesignCLIPは、特許画像の詳細なキャプションとマルチビュー画像学習を利用して、クラス認識の分類とコントラスト学習を取り入れている。
実験の結果,DesignCLIPはすべてのタスクにおいて,特許ドメインのベースラインモデルとSOTAモデルよりも一貫して優れていることがわかった。
- 参考スコア(独自算出の注目度): 14.090575139188422
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the field of design patent analysis, traditional tasks such as patent classification and patent image retrieval heavily depend on the image data. However, patent images -- typically consisting of sketches with abstract and structural elements of an invention -- often fall short in conveying comprehensive visual context and semantic information. This inadequacy can lead to ambiguities in evaluation during prior art searches. Recent advancements in vision-language models, such as CLIP, offer promising opportunities for more reliable and accurate AI-driven patent analysis. In this work, we leverage CLIP models to develop a unified framework DesignCLIP for design patent applications with a large-scale dataset of U.S. design patents. To address the unique characteristics of patent data, DesignCLIP incorporates class-aware classification and contrastive learning, utilizing generated detailed captions for patent images and multi-views image learning. We validate the effectiveness of DesignCLIP across various downstream tasks, including patent classification and patent retrieval. Additionally, we explore multimodal patent retrieval, which provides the potential to enhance creativity and innovation in design by offering more diverse sources of inspiration. Our experiments show that DesignCLIP consistently outperforms baseline and SOTA models in the patent domain on all tasks. Our findings underscore the promise of multimodal approaches in advancing patent analysis. The codebase is available here: https://anonymous.4open.science/r/PATENTCLIP-4661/README.md.
- Abstract(参考訳): デザイン特許分析の分野では、特許分類や特許画像検索といった従来のタスクは画像データに大きく依存している。
しかしながら、通常、発明の抽象的および構造的要素を持つスケッチからなる特許画像は、包括的な視覚的コンテキストと意味情報を伝達するのに不足することが多い。
この不適切さは、事前のアートサーチにおける評価の曖昧さにつながる可能性がある。
CLIPのようなビジョン言語モデルの最近の進歩は、より信頼性が高く正確なAI駆動型特許分析のための有望な機会を提供する。
本研究では,CLIPモデルを用いて,米国設計特許の大規模データセットを用いた設計特許アプリケーションのための統合フレームワークであるDesignCLIPを開発する。
特許データのユニークな特徴に対処するため、DesignCLIPは、特許画像の詳細なキャプションとマルチビュー画像学習を利用して、クラス認識の分類とコントラスト学習を取り入れている。
特許分類や特許検索など,下流業務におけるDesignCLIPの有効性を検証する。
さらに、より多様なインスピレーション源を提供することで、デザインの創造性と革新性を高める可能性を提供するマルチモーダル特許検索についても検討する。
実験の結果,DesignCLIPはすべてのタスクにおいて,特許ドメインのベースラインモデルとSOTAモデルよりも一貫して優れていることがわかった。
本研究は,特許分析の進歩におけるマルチモーダルアプローチの可能性を裏付けるものである。
コードベースは以下の通りである。 https://anonymous.4open.science/r/PATENTCLIP-4661/README.md。
関連論文リスト
- Hierarchical Multi-Positive Contrastive Learning for Patent Image Retrieval [0.2970959580204573]
特許画像は、特許のイノベーションに関する情報を伝える技術図である。
現在の方法は、ロカルノ国際分類システムで定義されたような特許の階層的関係を無視している。
検索プロセスにおいて,その関係を導き出すために,LISPの分類を利用した階層的多陽性のコントラスト損失を導入する。
論文 参考訳(メタデータ) (2025-06-16T13:53:02Z) - Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors [50.7383184560431]
連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
論文 参考訳(メタデータ) (2025-05-27T03:51:37Z) - IP-Composer: Semantic Composition of Visual Concepts [49.18472621931207]
合成画像生成のためのトレーニング不要アプローチであるIP-Composerを提案する。
提案手法は,入力画像のCLIP埋め込みを条件とした新しい画像を生成するIP-Adapter上に構築する。
テキストから特定された概念固有のCLIP-サブスペースに、複数の入力画像の投影から縫い付けられた複合埋め込みを製作することで、このアプローチを複数の視覚的入力に拡張する。
論文 参考訳(メタデータ) (2025-02-19T18:49:31Z) - PatentLMM: Large Multimodal Model for Generating Descriptions for Patent Figures [7.16446145782558]
patentDesc-355Kは,355Kの特許図と,その簡潔かつ詳細なテキスト記述を含む,新しい大規模データセットである。
また,特許図の高品質な記述に特化して設計された多モーダル大規模言語モデルであるPatentLMMを提案する。
提案する特許LMMは,特許図のユニークな構造的要素を捉えた特殊なマルチモーダル・ビジョン・エンコーダであるPatentMMEと,LLaMAのドメイン適応版であるPatentLLaMAの2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-01-25T04:45:32Z) - A Survey on Patent Analysis: From NLP to Multimodal AI [14.090575139188422]
この学際的な調査は、NLP、マルチモーダルAI、特許分析の交差点で働く研究者や実践者のための総合的なリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2024-04-02T20:44:06Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification [26.85734804493925]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。
まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。
最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文 参考訳(メタデータ) (2023-08-10T07:02:24Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z) - A Convolutional Neural Network-based Patent Image Retrieval Method for
Design Ideation [5.195924252155368]
畳み込みニューラルネットワーク(CNN)を用いた特許画像検索手法を提案する。
このアプローチの中核は、Dual-VGGと呼ばれる新しいニューラルネットワークアーキテクチャである。
トレーニングタスクと特許画像埋め込み空間の精度を評価し,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-03-10T13:32:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。