Fugu-MT 論文翻訳(概要): Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation

論文の概要: Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation

arxiv url: http://arxiv.org/abs/2410.07009v1
Date: Wed, 9 Oct 2024 15:52:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 23:07:19.410912
Title: Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation
Title（参考訳）: Pap2Pat: チャンクベースアウトライン誘導生成による紙から紙への自動描画を目指して
Authors: Valentin Knappich, Simon Razniewski, Anna Hätty, Annemarie Friedrich,
Abstract要約: PAP2PATは、文書概要を含む1.8kの特許と特許のペアの新しい挑戦的なベンチマークである。現在のオープンウェイト LLM とアウトライン誘導型ジェネレーションによる実験は,特許言語の本質的な反復性のために,論文からの情報を効果的に活用できるが,繰り返しに苦慮していることを示している。
参考スコア（独自算出の注目度）: 13.242188189150987
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The patent domain is gaining attention in natural language processing research, offering practical applications in streamlining the patenting process and providing challenging benchmarks for large language models (LLMs). However, the generation of the description sections of patents, which constitute more than 90% of the patent document, has not been studied to date. We address this gap by introducing the task of outline-guided paper-to-patent generation, where an academic paper provides the technical specification of the invention and an outline conveys the desired patent structure. We present PAP2PAT, a new challenging benchmark of 1.8k patent-paper pairs with document outlines, collected using heuristics that reflect typical research lab practices. Our experiments with current open-weight LLMs and outline-guided chunk-based generation show that they can effectively use information from the paper but struggle with repetitions, likely due to the inherent repetitiveness of patent language. We release our data and code.
Abstract（参考訳）: 特許領域は自然言語処理の研究で注目を集めており、特許プロセスの合理化や大規模言語モデル(LLM)の挑戦的なベンチマークの実践的応用を提供している。しかし、特許文書の90%以上を構成する特許の記載部分の生成については、現在まで研究されていない。本稿では,発明の技術的仕様を学術論文で提示し,望まれる特許構造を概説する,アウトライン誘導型論文からパテント世代へのタスクを導入することで,このギャップに対処する。 PAP2PATは、典型的な研究室の実践を反映したヒューリスティックスを用いて収集された文書概要を含む、1.8kの特許と特許のペアの新しい挑戦的なベンチマークである。現在のオープンウェイト LLM とアウトラインガイドによるチャンクベース生成による実験は,特許言語の本質的な反復性のために,論文からの情報を効果的に活用できるが,繰り返しに苦慮していることを示している。データとコードを公開します。

関連論文リスト

PANORAMA: A Dataset and Benchmarks Capturing Decision Trails and Rationales in Patent Examination [44.74519851862391]
PANORAMAは米国特許試験記録8,143件のデータセットである。我々は,特許専門家の特許審査プロセスをエミュレートする逐次ベンチマークにパスを分解する。我々は、LLMを含むNLPを特許領域で前進させるには、現実世界の特許審査をより深く理解する必要があると論じる。
論文参考訳（メタデータ） (2025-10-25T03:24:13Z)
AutoSpec: An Agentic Framework for Automatically Drafting Patent Specification [15.052472198494371]
特許は、発明者に対して排他的権利を与えることによって、技術革新を推進する上で重要な役割を担っている。近年の言語モデルの発展にもかかわらず、いくつかの課題が、堅牢な自動特許草案作成システムの開発を妨げている。特許仕様を自動的にドラフトするセキュアでエージェント的なフレームワークであるAutoSpecを紹介します。
論文参考訳（メタデータ） (2025-09-23T23:10:18Z)
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文参考訳（メタデータ） (2025-09-16T17:57:21Z)
LAQuer: Localized Attribution Queries in Content-grounded Generation [69.60308443863606]
グラウンドドテキスト生成モデルは、しばしば元の資料から逸脱したコンテンツを生成し、正確性を保証するためにユーザの検証を必要とする。既存の属性メソッドは、全文とソース文書を関連付けるが、これは特定のクレームを事実チェックしようとするユーザにとって圧倒的に多い。これは、生成された出力の選択したスパンを対応するソーススパンにローカライズし、きめ細かな、ユーザ指向のアトリビューションを可能にする新しいタスクである。
論文参考訳（メタデータ） (2025-06-01T21:46:23Z)
AutoPatent: A Multi-Agent Framework for Automatic Patent Generation [16.862811929856313]
我々はDraft2Patentと呼ばれる新しい実用的なタスクとそれに対応するD2Pベンチマークを導入し、初期ドラフトに基づいて17Kトークンを平均化する完全長の特許を生成するためにLarge Language Modelsに挑戦する。提案するマルチエージェントフレームワークであるAutoPatentは,LPMベースのプランナーエージェント,ライターエージェント,検査エージェントをPGTreeとRRAGで組み合わせて,長文かつ複雑かつ高品質な特許文書を生成する。
論文参考訳（メタデータ） (2024-12-13T02:27:34Z)
PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文参考訳（メタデータ） (2024-11-20T17:23:40Z)
BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
BRIEF(Bridging Retrieval and Inference through Evidence Fusion)は、クエリ対応のマルチホップ推論を実行する軽量なアプローチである。オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文参考訳（メタデータ） (2024-10-20T04:24:16Z)
O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文参考訳（メタデータ） (2024-10-08T15:13:01Z)
PATopics: An automatic framework to extract useful information from pharmaceutical patents documents [4.340983107526238]
PATopicsは、薬品特許に関する関連情報を抽出するために特別に設計されたフレームワークである。 478社で特許取得された809分子に関する4,832の医薬品特許を用いてフレームワークを広範囲に分析した。
論文参考訳（メタデータ） (2024-08-12T19:18:51Z)
Natural Language Processing in Patents: A Survey [0.0]
重要な技術的および法的情報をカプセル化した特許は、自然言語処理(NLP)アプリケーションのための豊富なドメインを提供する。 NLP技術が発展するにつれて、大規模言語モデル(LLM)は一般的なテキスト処理や生成タスクにおいて優れた能力を示してきた。本稿は,NLP研究者に,この複雑な領域を効率的にナビゲートするために必要な知識を付与することを目的とする。
論文参考訳（メタデータ） (2024-03-06T23:17:16Z)
PaECTER: Patent-level Representation Learning using Citation-informed Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。 PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文参考訳（メタデータ） (2024-02-29T18:09:03Z)
LLM4EDA: Emerging Progress in Large Language Models for Electronic Design Automation [74.7163199054881]
大規模言語モデル(LLM)は、文脈理解、論理推論、回答生成においてその能力を実証している。本稿では,EDA分野におけるLLMの応用に関する系統的研究を行う。論理合成,物理設計,マルチモーダル特徴抽出,回路のアライメントにLLMを適用することに焦点を当て,今後の研究の方向性を強調した。
論文参考訳（メタデータ） (2023-12-28T15:09:14Z)
Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文参考訳（メタデータ） (2023-12-01T19:53:23Z)
Unveiling Black-boxes: Explainable Deep Learning Models for Patent Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文参考訳（メタデータ） (2023-10-31T14:11:37Z)
PaperCard for Reporting Machine Assistance in Academic Writing [48.33722012818687]
2022年11月にOpenAIが発表した質問応答システムChatGPTは,学術論文作成に活用可能な,さまざまな機能を実証した。これは学術における著者概念に関する批判的な疑問を提起する。我々は、人間の著者が記述プロセスにおけるAIの使用を透過的に宣言するための文書である"PaperCard"というフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-07T14:28:04Z)
The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications [8.110699646062384]
ハーバードUSPTO特許データセット(HUPD)について紹介する。 450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
論文参考訳（メタデータ） (2022-07-08T17:57:15Z)
A Survey on Sentence Embedding Models Performance for Patent Analysis [0.0]
本稿では,PatentSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。 patentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings is the most accuracy for computing sentence embeddeds at the subclass level。
論文参考訳（メタデータ） (2022-04-28T12:04:42Z)
Context-Tuning: Learning Contextualized Prompts for Natural Language Generation [52.835877179365525]
自然言語生成のための微調整PLMに対して,Context-Tuningと呼ばれる新しい連続的プロンプト手法を提案する。まず、入力テキストに基づいてプロンプトを導出し、PLMから有用な知識を抽出して生成する。第二に、生成したテキストの入力に対する関連性をさらに高めるために、連続的な逆プロンプトを用いて自然言語生成のプロセスを洗練する。
論文参考訳（メタデータ） (2022-01-21T12:35:28Z)
Patent Sentiment Analysis to Highlight Patent Paragraphs [0.0]
特許文書が与えられた場合、異なるセマンティックアノテーションを識別することは興味深い研究の側面である。手動の特許分析の過程で、より読みやすくするために、段落をマークして意味情報を認識することが実際である。この作業は、セマンティック情報を自動的に強調する特許実践者を支援し、機械学習の適性を利用して持続的で効率的な特許分析を作成するのに役立つ。
論文参考訳（メタデータ） (2021-11-06T13:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。