Fugu-MT 論文翻訳(概要): LLM-based Extraction of Contradictions from Patents

論文の概要: LLM-based Extraction of Contradictions from Patents

arxiv url: http://arxiv.org/abs/2403.14258v1
Date: Thu, 21 Mar 2024 09:36:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 14:48:00.561490
Title: LLM-based Extraction of Contradictions from Patents
Title（参考訳）: LLMによる特許からのコントラクテーションの抽出
Authors: Stefan Trapp, Joachim Warschat,
Abstract要約: 本稿では,Prompt Engineeringに基づく特許文書からTRIZの矛盾を抽出する手法を提案する。以上の結果から,GPT-4 は既存のアプローチの真に代替するものであることが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Already since the 1950s TRIZ shows that patents and the technical contradictions they solve are an important source of inspiration for the development of innovative products. However, TRIZ is a heuristic based on a historic patent analysis and does not make use of the ever-increasing number of latest technological solutions in current patents. Because of the huge number of patents, their length, and, last but not least, their complexity there is a need for modern patent retrieval and patent analysis to go beyond keyword-oriented methods. Recent advances in patent retrieval and analysis mainly focus on dense vectors based on neural AI Transformer language models like Google BERT. They are, for example, used for dense retrieval, question answering or summarization and key concept extraction. A research focus within the methods for patent summarization and key concept extraction are generic inventive concepts respectively TRIZ concepts like problems, solutions, advantage of invention, parameters, and contradictions. Succeeding rule-based approaches, finetuned BERT-like language models for sentence-wise classification represent the state-of-the-art of inventive concept extraction. While they work comparatively well for basic concepts like problems or solutions, contradictions - as a more complex abstraction - remain a challenge for these models. This paper goes one step further, as it presents a method to extract TRIZ contradictions from patent texts based on Prompt Engineering using a generative Large Language Model (LLM), namely OpenAI's GPT-4. Contradiction detection, sentence extraction, contradiction summarization, parameter extraction and assignment to the 39 abstract TRIZ engineering parameters are all performed in a single prompt using the LangChain framework. Our results show that "off-the-shelf" GPT-4 is a serious alternative to existing approaches.
Abstract（参考訳）: 1950年代から既にTRIZは、特許と彼らが解決した技術的矛盾が革新的な製品の開発にインスピレーションを与える重要な源であることを示している。しかし、TRIZは歴史的特許分析に基づくヒューリスティックであり、現在の特許における最新の技術ソリューションの数が増え続けていることを利用していない。膨大な数の特許、その長さ、そしてもっとも重要なことは、その複雑さのために、キーワード指向の方法を超えた近代的な特許検索と特許分析が必要であることである。特許の検索と分析の最近の進歩は、主にGoogle BERTのようなニューラルAIトランスフォーマー言語モデルに基づく高密度ベクトルに焦点を当てている。例えば、密集検索、質問応答、要約、キーコンセプト抽出などに使われる。特許要約法とキーコンセプト抽出法における研究の焦点は、それぞれ、問題、解決策、発明の利点、パラメータ、矛盾といったTRIZ概念の一般的な発明的概念である。規則に基づくアプローチを習得し、文の分類のための細調整されたBERTライクな言語モデルは、発明的概念抽出の最先端を表現している。彼らは問題やソリューションといった基本的な概念に対して比較的うまく機能しますが、より複雑な抽象化として、矛盾はこれらのモデルにとって課題のままです。本稿では,生成型Large Language Model(LLM)を用いて,特許文書からTRIZの矛盾を抽出する手法を提案する。 39の抽象TRIZエンジニアリングパラメータに対するコントラクション検出、文抽出、矛盾要約、パラメータ抽出、割り当ては、LangChainフレームワークを使用して単一のプロンプトで実行される。以上の結果から,GPT-4 は既存のアプローチの真に代替するものであることが示唆された。

関連論文リスト

TRIZ-RAGNER: A Retrieval-Augmented Large Language Model for TRIZ-Aware Named Entity Recognition in Patent-Based Contradiction Mining [7.27691501996559]
本稿では、TRIZ対応エンティティ認識のための検索強化された大規模言語モデルフレームワークを提案する。 TRIZ-RAGNERは、矛盾マイニングを意味レベルNERタスクとして再構成し、TRIZ知識ベース上の密集検索を統合する。 PaTRIZデータセットの実験は、TRIZ-RAGNERが従来のシーケンスラベリングモデルより一貫して優れていることを示した。
論文参考訳（メタデータ） (2026-02-27T03:40:45Z)
PANORAMA: A Dataset and Benchmarks Capturing Decision Trails and Rationales in Patent Examination [44.74519851862391]
PANORAMAは米国特許試験記録8,143件のデータセットである。我々は,特許専門家の特許審査プロセスをエミュレートする逐次ベンチマークにパスを分解する。我々は、LLMを含むNLPを特許領域で前進させるには、現実世界の特許審査をより深く理解する必要があると論じる。
論文参考訳（メタデータ） (2025-10-25T03:24:13Z)
A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models [71.66119575697458]
トークン・バイ・トークン生成のボトルネックを破り、推論効率を向上させることを目的とした並列テキスト生成技術。既存のアプローチをARベースのパラダイムと非ARベースのパラダイムに分類し、各カテゴリの中核技術について詳細に検討する。我々は、最近の進歩を強調し、オープンな課題を特定し、並列テキスト生成における将来的な研究の方向性を概説する。
論文参考訳（メタデータ） (2025-08-12T07:56:04Z)
Enhancing patent retrieval using automated patent summarization [1.067215284497015]
本稿では,特許文書の簡潔で目的特異的な要約を生成するための,最近の抽出および抽象的な要約手法の適用について述べる。実験の結果,要約に基づくクエリにより,先行検索の有効性が著しく向上した。
論文参考訳（メタデータ） (2025-07-22T09:14:44Z)
PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims [13.242188189150987]
PEDANTICは14万件の米国特許権主張のデータセットで、不確定性の理由が指摘されている。人間の検証研究は、高品質なアノテーションを生成する際のパイプラインの正確性を確認する。 PEDANTICは特許AI研究者に貴重なリソースを提供し、高度な検査モデルの開発を可能にする。
論文参考訳（メタデータ） (2025-05-27T15:34:39Z)
A Hybrid Architecture with Efficient Fine Tuning for Abstractive Patent Document Summarization [0.0]
本研究では,特許記録の抽象要約を効率的に作成するシステムを提案する。この手順では、LexRankグラフベースのアルゴリズムを使用して、入力された親テキストから重要な文を検索する。
論文参考訳（メタデータ） (2025-03-13T13:30:54Z)
EvoPat: A Multi-LLM-based Patents Summarization and Analysis Agent [0.0]
EvoPatはマルチLLMベースの特許エージェントで、ユーザーが検索生成(RAG)と高度な検索戦略を通じて特許を分析するのを支援する。特許要約,比較分析,技術評価などのタスクにおいて,EvoPatがGPT-4より優れていることを示す。
論文参考訳（メタデータ） (2024-12-24T02:21:09Z)
PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文参考訳（メタデータ） (2024-11-20T17:23:40Z)
Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation [13.242188189150987]
PAP2PATは、文書概要を含む1.8kの特許と特許のペアの新しい挑戦的なベンチマークである。現在のオープンウェイト LLM とアウトライン誘導型ジェネレーションによる実験は,特許言語の本質的な反復性のために,論文からの情報を効果的に活用できるが,繰り返しに苦慮していることを示している。
論文参考訳（メタデータ） (2024-10-09T15:52:48Z)
Structural Representation Learning and Disentanglement for Evidential Chinese Patent Approval Prediction [19.287231890434718]
本稿では,検索に基づく分類手法を用いて,本課題の先駆的取り組みについて述べる。本稿では,構造表現学習と絡み合いに着目したDiSPatという新しいフレームワークを提案する。弊社のフレームワークは、特許承認の予測に関する最先端のベースラインを超越し、明確性の向上も示している。
論文参考訳（メタデータ） (2024-08-23T05:44:16Z)
SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文参考訳（メタデータ） (2024-06-15T21:57:03Z)
A Survey on Patent Analysis: From NLP to Multimodal AI [14.090575139188422]
この学際的な調査は、NLP、マルチモーダルAI、特許分析の交差点で働く研究者や実践者のための総合的なリソースとして機能することを目的としている。
論文参考訳（メタデータ） (2024-04-02T20:44:06Z)
Natural Language Processing in Patents: A Survey [0.0]
重要な技術的および法的情報をカプセル化した特許は、自然言語処理(NLP)アプリケーションのための豊富なドメインを提供する。 NLP技術が発展するにつれて、大規模言語モデル(LLM)は一般的なテキスト処理や生成タスクにおいて優れた能力を示してきた。本稿は,NLP研究者に,この複雑な領域を効率的にナビゲートするために必要な知識を付与することを目的とする。
論文参考訳（メタデータ） (2024-03-06T23:17:16Z)
PaECTER: Patent-level Representation Learning using Citation-informed Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。 PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文参考訳（メタデータ） (2024-02-29T18:09:03Z)
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [79.37150041259066]
本稿では, 事実推論や数学的証明といったIR課題に対処するために, 反陽性と矛盾の論理を用いた間接推論(IR)手法を提案する。 GPT-3.5-turbo や Gemini-pro などの一般的な LLM の実験結果から,我々のIR 法は事実推論の総合的精度を27.33%,数学的証明を31.43%向上させることを示した。
論文参考訳（メタデータ） (2024-02-06T03:41:12Z)
Unveiling Black-boxes: Explainable Deep Learning Models for Patent Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文参考訳（メタデータ） (2023-10-31T14:11:37Z)
TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文参考訳（メタデータ） (2023-10-16T08:42:39Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications [8.110699646062384]
ハーバードUSPTO特許データセット(HUPD)について紹介する。 450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
論文参考訳（メタデータ） (2022-07-08T17:57:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。