論文の概要: Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation
- arxiv url: http://arxiv.org/abs/2410.07009v1
- Date: Wed, 9 Oct 2024 15:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 23:07:19.410912
- Title: Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation
- Title(参考訳): Pap2Pat: チャンクベースアウトライン誘導生成による紙から紙への自動描画を目指して
- Authors: Valentin Knappich, Simon Razniewski, Anna Hätty, Annemarie Friedrich,
- Abstract要約: PAP2PATは、文書概要を含む1.8kの特許と特許のペアの新しい挑戦的なベンチマークである。
現在のオープンウェイト LLM とアウトライン誘導型ジェネレーションによる実験は,特許言語の本質的な反復性のために,論文からの情報を効果的に活用できるが,繰り返しに苦慮していることを示している。
- 参考スコア(独自算出の注目度): 13.242188189150987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The patent domain is gaining attention in natural language processing research, offering practical applications in streamlining the patenting process and providing challenging benchmarks for large language models (LLMs). However, the generation of the description sections of patents, which constitute more than 90% of the patent document, has not been studied to date. We address this gap by introducing the task of outline-guided paper-to-patent generation, where an academic paper provides the technical specification of the invention and an outline conveys the desired patent structure. We present PAP2PAT, a new challenging benchmark of 1.8k patent-paper pairs with document outlines, collected using heuristics that reflect typical research lab practices. Our experiments with current open-weight LLMs and outline-guided chunk-based generation show that they can effectively use information from the paper but struggle with repetitions, likely due to the inherent repetitiveness of patent language. We release our data and code.
- Abstract(参考訳): 特許領域は自然言語処理の研究で注目を集めており、特許プロセスの合理化や大規模言語モデル(LLM)の挑戦的なベンチマークの実践的応用を提供している。
しかし、特許文書の90%以上を構成する特許の記載部分の生成については、現在まで研究されていない。
本稿では,発明の技術的仕様を学術論文で提示し,望まれる特許構造を概説する,アウトライン誘導型論文からパテント世代へのタスクを導入することで,このギャップに対処する。
PAP2PATは、典型的な研究室の実践を反映したヒューリスティックスを用いて収集された文書概要を含む、1.8kの特許と特許のペアの新しい挑戦的なベンチマークである。
現在のオープンウェイト LLM とアウトラインガイドによるチャンクベース生成による実験は,特許言語の本質的な反復性のために,論文からの情報を効果的に活用できるが,繰り返しに苦慮していることを示している。
データとコードを公開します。
関連論文リスト
- PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
BRIEF(Bridging Retrieval and Inference through Evidence Fusion)は、クエリ対応のマルチホップ推論を実行する軽量なアプローチである。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。
我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。
本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:13:01Z) - Natural Language Processing in Patents: A Survey [0.0]
重要な技術的および法的情報をカプセル化した特許は、自然言語処理(NLP)アプリケーションのための豊富なドメインを提供する。
NLP技術が発展するにつれて、大規模言語モデル(LLM)は一般的なテキスト処理や生成タスクにおいて優れた能力を示してきた。
本稿は,NLP研究者に,この複雑な領域を効率的にナビゲートするために必要な知識を付与することを目的とする。
論文 参考訳(メタデータ) (2024-03-06T23:17:16Z) - PaECTER: Patent-level Representation Learning using Citation-informed
Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。
評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-01T19:53:23Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and
Multi-Purpose Corpus of Patent Applications [8.110699646062384]
ハーバードUSPTO特許データセット(HUPD)について紹介する。
450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。
各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
論文 参考訳(メタデータ) (2022-07-08T17:57:15Z) - A Survey on Sentence Embedding Models Performance for Patent Analysis [0.0]
本稿では,PatentSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。
patentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings is the most accuracy for computing sentence embeddeds at the subclass level。
論文 参考訳(メタデータ) (2022-04-28T12:04:42Z) - Context-Tuning: Learning Contextualized Prompts for Natural Language
Generation [52.835877179365525]
自然言語生成のための微調整PLMに対して,Context-Tuningと呼ばれる新しい連続的プロンプト手法を提案する。
まず、入力テキストに基づいてプロンプトを導出し、PLMから有用な知識を抽出して生成する。
第二に、生成したテキストの入力に対する関連性をさらに高めるために、連続的な逆プロンプトを用いて自然言語生成のプロセスを洗練する。
論文 参考訳(メタデータ) (2022-01-21T12:35:28Z) - Patent Sentiment Analysis to Highlight Patent Paragraphs [0.0]
特許文書が与えられた場合、異なるセマンティックアノテーションを識別することは興味深い研究の側面である。
手動の特許分析の過程で、より読みやすくするために、段落をマークして意味情報を認識することが実際である。
この作業は、セマンティック情報を自動的に強調する特許実践者を支援し、機械学習の適性を利用して持続的で効率的な特許分析を作成するのに役立つ。
論文 参考訳(メタデータ) (2021-11-06T13:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。