論文の概要: Pap2Pat: Benchmarking Outline-Guided Long-Text Patent Generation with Patent-Paper Pairs
- arxiv url: http://arxiv.org/abs/2410.07009v2
- Date: Thu, 06 Mar 2025 08:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:56:34.296371
- Title: Pap2Pat: Benchmarking Outline-Guided Long-Text Patent Generation with Patent-Paper Pairs
- Title(参考訳): Pap2Pat: 特許パネルによるアウトラインガイド付き長文特許生成のベンチマーク
- Authors: Valentin Knappich, Simon Razniewski, Anna Hätty, Annemarie Friedrich,
- Abstract要約: PAP2PATは、同じ発明を記述した1.8kの特許と紙のペアからなる特許草案作成のためのオープンベンチマークである。
PAP2PATと人体ケーススタディを用いて評価したところ、LCMは紙からの情報を有効に活用できるが、それでも必要な詳細情報を提供するのに苦労している。
- 参考スコア(独自算出の注目度): 13.242188189150987
- License:
- Abstract: Dealing with long and highly complex technical text is a challenge for Large Language Models (LLMs), which still have to unfold their potential in supporting expensive and timeintensive processes like patent drafting. Within patents, the description constitutes more than 90% of the document on average. Yet, its automatic generation remains understudied. When drafting patent applications, patent attorneys typically receive invention reports (IRs), which are usually confidential, hindering research on LLM-supported patent drafting. Often, prepublication research papers serve as IRs. We leverage this duality to build PAP2PAT, an open and realistic benchmark for patent drafting consisting of 1.8k patent-paper pairs describing the same inventions. To address the complex longdocument patent generation task, we propose chunk-based outline-guided generation using the research paper as invention specification. Our extensive evaluation using PAP2PAT and a human case study show that LLMs can effectively leverage information from the paper, but still struggle to provide the necessary level of detail. Fine-tuning leads to more patent-style language, but also to more hallucination. We release our data and code https://github.com/boschresearch/Pap2Pat.
- Abstract(参考訳): 長期かつ高度に複雑な技術的テキストを扱うことは、特許草案作成のような高価で時間を要するプロセスをサポートする可能性を広げなければならない大規模言語モデル(LLM)にとって課題である。
特許内では、説明はドキュメントの90%以上を平均で占めている。
しかし、自動生成は未検討のままである。
特許出願を起草する際には、通常特許弁護士は発明報告(IR)を受け取るが、これは通常秘密であり、LLMが支援する特許草案の研究を妨げる。
しばしば、公開前の研究論文はIRとして機能する。
私たちはこの双対性を利用して、同じ発明を記述した1.8kの特許ペーパーペアからなる特許草案作成のためのオープンで現実的なベンチマークであるPAP2PATを構築します。
複雑な長期特許生成課題に対処するため,本論文を発明の仕様として用いたチャンクベースアウトラインガイド生成を提案する。
PAP2PATと人体ケーススタディを用いた広範囲な評価は、LLMが紙からの情報を有効に活用できるが、それでも必要な詳細レベルを提供するのに苦労していることを示している。
微調整は、より多くの特許スタイルの言語をもたらすだけでなく、幻覚にも繋がる。
私たちはデータとコード https://github.com/boschresearch/Pap2Pat をリリースします。
関連論文リスト
- AutoPatent: A Multi-Agent Framework for Automatic Patent Generation [16.862811929856313]
我々はDraft2Patentと呼ばれる新しい実用的なタスクとそれに対応するD2Pベンチマークを導入し、初期ドラフトに基づいて17Kトークンを平均化する完全長の特許を生成するためにLarge Language Modelsに挑戦する。
提案するマルチエージェントフレームワークであるAutoPatentは,LPMベースのプランナーエージェント,ライターエージェント,検査エージェントをPGTreeとRRAGで組み合わせて,長文かつ複雑かつ高品質な特許文書を生成する。
論文 参考訳(メタデータ) (2024-12-13T02:27:34Z) - PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。
我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。
本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:13:01Z) - Natural Language Processing in Patents: A Survey [0.0]
重要な技術的および法的情報をカプセル化した特許は、自然言語処理(NLP)アプリケーションのための豊富なドメインを提供する。
NLP技術が発展するにつれて、大規模言語モデル(LLM)は一般的なテキスト処理や生成タスクにおいて優れた能力を示してきた。
本稿は,NLP研究者に,この複雑な領域を効率的にナビゲートするために必要な知識を付与することを目的とする。
論文 参考訳(メタデータ) (2024-03-06T23:17:16Z) - PaECTER: Patent-level Representation Learning using Citation-informed
Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。
評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-01T19:53:23Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and
Multi-Purpose Corpus of Patent Applications [8.110699646062384]
ハーバードUSPTO特許データセット(HUPD)について紹介する。
450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。
各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
論文 参考訳(メタデータ) (2022-07-08T17:57:15Z) - Context-Tuning: Learning Contextualized Prompts for Natural Language
Generation [52.835877179365525]
自然言語生成のための微調整PLMに対して,Context-Tuningと呼ばれる新しい連続的プロンプト手法を提案する。
まず、入力テキストに基づいてプロンプトを導出し、PLMから有用な知識を抽出して生成する。
第二に、生成したテキストの入力に対する関連性をさらに高めるために、連続的な逆プロンプトを用いて自然言語生成のプロセスを洗練する。
論文 参考訳(メタデータ) (2022-01-21T12:35:28Z) - Patent Sentiment Analysis to Highlight Patent Paragraphs [0.0]
特許文書が与えられた場合、異なるセマンティックアノテーションを識別することは興味深い研究の側面である。
手動の特許分析の過程で、より読みやすくするために、段落をマークして意味情報を認識することが実際である。
この作業は、セマンティック情報を自動的に強調する特許実践者を支援し、機械学習の適性を利用して持続的で効率的な特許分析を作成するのに役立つ。
論文 参考訳(メタデータ) (2021-11-06T13:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。