論文の概要: PatentVision: A multimodal method for drafting patent applications
- arxiv url: http://arxiv.org/abs/2510.09762v1
- Date: Fri, 10 Oct 2025 18:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.610726
- Title: PatentVision: A multimodal method for drafting patent applications
- Title(参考訳): PatentVision: 特許出願の草案作成のためのマルチモーダル手法
- Authors: Ruo Yang, Sai Krishna Reddy Mudhiganti, Manali Sharma,
- Abstract要約: 大規模ビジョン言語モデル (LVLM) は、様々なタスクにまたがる約束を示すが、特許の書き起こしの自動化への応用はまだ未定である。
本稿では,特許クレームや図面などのテキストおよび視覚的なインプットを統合し,完全な特許仕様を生成するフレームワークであるPatentVisionを紹介する。
実験では、テキストのみの手法を超越し、より忠実で人間の記述された標準と整合した出力を生成する。
- 参考スコア(独自算出の注目度): 2.2940141855172036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Patent drafting is complex due to its need for detailed technical descriptions, legal compliance, and visual elements. Although Large Vision Language Models (LVLMs) show promise across various tasks, their application in automating patent writing remains underexplored. In this paper, we present PatentVision, a multimodal framework that integrates textual and visual inputs such as patent claims and drawings to generate complete patent specifications. Built on advanced LVLMs, PatentVision enhances accuracy by combining fine tuned vision language models with domain specific training tailored to patents. Experiments reveal it surpasses text only methods, producing outputs with greater fidelity and alignment with human written standards. Its incorporation of visual data allows it to better represent intricate design features and functional connections, leading to richer and more precise results. This study underscores the value of multimodal techniques in patent automation, providing a scalable tool to reduce manual workloads and improve consistency. PatentVision not only advances patent drafting but also lays the groundwork for broader use of LVLMs in specialized areas, potentially transforming intellectual property management and innovation processes.
- Abstract(参考訳): 特許の起草は、詳細な技術的記述、法的遵守、視覚的要素を必要とするため複雑である。
LVLM(Large Vision Language Models)は、様々なタスクにまたがる約束を示すが、特許の書き起こしを自動化するための応用は未定である。
本稿では,特許請求書や図面などのテキストおよび視覚的なインプットを統合し,完全な特許仕様を生成するマルチモーダルフレームワークであるPatentVisionを提案する。
高度なLVLM上に構築されたPurtureVisionは、微調整された視覚言語モデルと、特許に合わせたドメイン固有のトレーニングを組み合わせることで、精度を向上させる。
実験では、テキストのみの手法を超越し、より忠実で人間の記述された標準と整合した出力を生成する。
ビジュアルデータの取り込みにより、複雑なデザインの特徴や機能的な接続をよりよく表現することができ、よりリッチで正確な結果が得られる。
この研究は、特許自動化におけるマルチモーダル技術の価値を強調し、手作業の削減と一貫性向上のためのスケーラブルなツールを提供する。
PatentVisionは特許の起草を前進させるだけでなく、知的財産管理やイノベーションのプロセスを変える可能性がある専門分野におけるLVLMの幅広い利用の基礎も築き上げている。
関連論文リスト
- DesignCLIP: Multimodal Learning with CLIP for Design Patent Understanding [14.090575139188422]
我々は,米国におけるデザイン特許の大規模データセットを用いたデザイン特許アプリケーションのための統合フレームワークであるDesignCLIPを開発した。
DesignCLIPは、特許画像の詳細なキャプションとマルチビュー画像学習を利用して、クラス認識の分類とコントラスト学習を取り入れている。
実験の結果,DesignCLIPはすべてのタスクにおいて,特許ドメインのベースラインモデルとSOTAモデルよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2025-08-21T06:36:24Z) - AnyRefill: A Unified, Data-Efficient Framework for Left-Prompt-Guided Vision Tasks [116.8706375364465]
本稿では,多様な参照型視覚タスクに対処するため,新しいLPG(Left-Prompt-Guided)パラダイムを提案する。
本稿では,テキスト・ツー・イメージ(T2I)モデルを様々な視覚タスクに効果的に適用するAnyRefillを提案する。
論文 参考訳(メタデータ) (2025-02-16T15:12:40Z) - PatentLMM: Large Multimodal Model for Generating Descriptions for Patent Figures [7.16446145782558]
patentDesc-355Kは,355Kの特許図と,その簡潔かつ詳細なテキスト記述を含む,新しい大規模データセットである。
また,特許図の高品質な記述に特化して設計された多モーダル大規模言語モデルであるPatentLMMを提案する。
提案する特許LMMは,特許図のユニークな構造的要素を捉えた特殊なマルチモーダル・ビジョン・エンコーダであるPatentMMEと,LLaMAのドメイン適応版であるPatentLLaMAの2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-01-25T04:45:32Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。
本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。
本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Natural Language Processing in the Patent Domain: A Survey [0.0]
特許は、重要な技術的および法的情報をテキスト形式および参照図面にカプセル化する。
本稿は,NLP研究者に,この複雑な領域を効率的にナビゲートするために必要な知識を付与することを目的とする。
論文 参考訳(メタデータ) (2024-03-06T23:17:16Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。