論文の概要: PatentLMM: Large Multimodal Model for Generating Descriptions for Patent Figures
- arxiv url: http://arxiv.org/abs/2501.15074v1
- Date: Sat, 25 Jan 2025 04:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:14.927320
- Title: PatentLMM: Large Multimodal Model for Generating Descriptions for Patent Figures
- Title(参考訳): PatentLMM: 特許図のための記述を生成するための大規模マルチモーダルモデル
- Authors: Shreya Shukla, Nakul Sharma, Manish Gupta, Anand Mishra,
- Abstract要約: patentDesc-355Kは,355Kの特許図と,その簡潔かつ詳細なテキスト記述を含む,新しい大規模データセットである。
また,特許図の高品質な記述に特化して設計された多モーダル大規模言語モデルであるPatentLMMを提案する。
提案する特許LMMは,特許図のユニークな構造的要素を捉えた特殊なマルチモーダル・ビジョン・エンコーダであるPatentMMEと,LLaMAのドメイン適応版であるPatentLLaMAの2つの重要なコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 7.16446145782558
- License:
- Abstract: Writing comprehensive and accurate descriptions of technical drawings in patent documents is crucial to effective knowledge sharing and enabling the replication and protection of intellectual property. However, automation of this task has been largely overlooked by the research community. To this end, we introduce PatentDesc-355K, a novel large-scale dataset containing ~355K patent figures along with their brief and detailed textual descriptions extracted from more than 60K US patent documents. In addition, we propose PatentLMM - a novel multimodal large language model specifically tailored to generate high-quality descriptions of patent figures. Our proposed PatentLMM comprises two key components: (i) PatentMME, a specialized multimodal vision encoder that captures the unique structural elements of patent figures, and (ii) PatentLLaMA, a domain-adapted version of LLaMA fine-tuned on a large collection of patents. Extensive experiments demonstrate that training a vision encoder specifically designed for patent figures significantly boosts the performance, generating coherent descriptions compared to fine-tuning similar-sized off-the-shelf multimodal models. PatentDesc-355K and PatentLMM pave the way for automating the understanding of patent figures, enabling efficient knowledge sharing and faster drafting of patent documents. We make the code and data publicly available.
- Abstract(参考訳): 特許文書における技術図面の包括的かつ正確な記述は、効果的な知識共有と知的財産の複製と保護を可能にするために不可欠である。
しかし、このタスクの自動化は研究コミュニティによってほとんど見落とされてきた。
この目的のために、米国特許文書60万件以上から抽出された簡潔かつ詳細なテキスト記述とともに、355K特許図を含む新しい大規模データセットであるPatentDesc-355Kを紹介した。
さらに,特許図の高品質な記述を生成するための多モーダル大規模言語モデルであるPatentLMMを提案する。
提案するPatentLMMは,2つのキーコンポーネントから構成される。
一 特許図形の独特の構造的要素を捉えた特殊マルチモーダル・ビジョン・エンコーダの特許MME
(ii)LLaMAのドメイン適応版であるPatentLLaMA。
広範にわたる実験により、特許フィギュア用に特別に設計されたビジョンエンコーダのトレーニングによって性能が大幅に向上し、微調整された類似のオフザシェルフマルチモーダルモデルと比較してコヒーレントな記述が生成されることが示されている。
PatentDesc-355K と PatentLMM は、特許図面の理解を自動化し、効率的な知識共有と特許文書のより高速な起草を可能にしている。
コードとデータを公開しています。
関連論文リスト
- The Master-Slave Encoder Model for Improving Patent Text Summarization: A New Approach to Combining Specifications and Claims [4.0394257829385065]
本稿では,マスタスレーブエンコーダアーキテクチャに基づく特許テキスト抽象生成モデル(MSEA)を提案する。
公開されている特許テキストデータセットでは、それぞれルージュ-1、ルージュ-2、ルージュ-Lの0.006、0.005、0.005の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-21T12:36:19Z) - PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
BRIEF(Bridging Retrieval and Inference through Evidence Fusion)は、クエリ対応のマルチホップ推論を実行する軽量なアプローチである。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - Structural Representation Learning and Disentanglement for Evidential Chinese Patent Approval Prediction [19.287231890434718]
本稿では,検索に基づく分類手法を用いて,本課題の先駆的取り組みについて述べる。
本稿では,構造表現学習と絡み合いに着目したDiSPatという新しいフレームワークを提案する。
弊社のフレームワークは、特許承認の予測に関する最先端のベースラインを超越し、明確性の向上も示している。
論文 参考訳(メタデータ) (2024-08-23T05:44:16Z) - PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents [58.35492519636351]
PINフォーマットは、知識の強度、スケーラビリティ、多様なトレーニングモダリティのサポートの3つの基本原則に基づいて構築されている。
PIN-14Mは中国語と英語の多種多様な情報源から得られた1400万のサンプルからなるオープンソースデータセットである。
論文 参考訳(メタデータ) (2024-06-20T01:43:08Z) - Natural Language Processing in Patents: A Survey [0.0]
重要な技術的および法的情報をカプセル化した特許は、自然言語処理(NLP)アプリケーションのための豊富なドメインを提供する。
NLP技術が発展するにつれて、大規模言語モデル(LLM)は一般的なテキスト処理や生成タスクにおいて優れた能力を示してきた。
本稿は,NLP研究者に,この複雑な領域を効率的にナビゲートするために必要な知識を付与することを目的とする。
論文 参考訳(メタデータ) (2024-03-06T23:17:16Z) - PaECTER: Patent-level Representation Learning using Citation-informed
Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and
Multi-Purpose Corpus of Patent Applications [8.110699646062384]
ハーバードUSPTO特許データセット(HUPD)について紹介する。
450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。
各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
論文 参考訳(メタデータ) (2022-07-08T17:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。