論文の概要: Prior Art Search and Reranking for Generated Patent Text
- arxiv url: http://arxiv.org/abs/2009.09132v2
- Date: Sun, 18 Jul 2021 06:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:09:45.758802
- Title: Prior Art Search and Reranking for Generated Patent Text
- Title(参考訳): 生成した特許テキストの先行技術検索と再ランク付け
- Authors: Jieh-Sheng Lee and Jieh Hsiang
- Abstract要約: 我々は、その出力に基づいて、GPTモデルに最もよく似た入力を振り返りに識別するリグレードシステムを実装した。
我々の知る限り、この研究は初めて、その出力に基づいてGPTモデルに最もよく似た入力を振り返りに識別するリグレードシステムを実装する。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models, such as GPT-2, have demonstrated impressive results
recently. A fundamental question we'd like to address is: where did the
generated text come from? This work is our initial effort toward answering the
question by using prior art search. The purpose of the prior art search is to
find the most similar prior text in the training data of GPT-2. We take a
reranking approach and apply it to the patent domain. Specifically, we
pre-train GPT-2 models from scratch by using the patent data from the USPTO.
The input for the prior art search is the patent text generated by the GPT-2
model. We also pre-trained BERT models from scratch for converting patent text
to embeddings. The steps of reranking are: (1) search the most similar text in
the training data of GPT-2 by taking a bag-of-word ranking approach (BM25), (2)
convert the search results in text format to BERT embeddings, and (3) provide
the final result by ranking the BERT embeddings based on their similarities
with the patent text generated by GPT-2. The experiments in this work show that
such reranking is better than ranking with embeddings alone. However, our mixed
results also indicate that calculating the semantic similarities among long
text spans is still challenging. To our knowledge, this work is the first to
implement a reranking system to identify retrospectively the most similar
inputs to a GPT model based on its output.
- Abstract(参考訳): GPT-2のような生成モデルは、最近顕著な結果を示している。
私たちが解決したい基本的な質問は、 生成されたテキストはどこから来たのか?
本研究は,先行検索を用いて質問に答えるための最初の取り組みである。
先行技術検索の目的は、gpt-2のトレーニングデータに最も類似した先行テキストを見つけることである。
我々は再格付けのアプローチを取り、それを特許ドメインに適用する。
具体的には,USPTOの特許データを用いて,GPT-2モデルをゼロから事前訓練する。
先行技術検索の入力は、GPT-2モデルによって生成された特許文書である。
また、特許文書を埋め込みに変換するために、スクラッチからBERTモデルを事前訓練しました。
再分類の手順は,(1)語句ランキングアプローチ(BM25)を用いてGPT-2のトレーニングデータにおいて最も類似したテキストを検索し,(2)検索結果をBERT埋め込みに変換し,(3)GPT-2で生成された特許テキストと類似性に基づいてBERT埋め込みをランク付けして最終結果を提供する。
この実験は、埋め込みだけでランク付けするよりも、そのようなランク付けの方が優れていることを示している。
しかし,本研究の結果から,長文間の意味的類似性を計算することは依然として困難であることが示唆された。
我々の知る限り、この研究は初めて、その出力に基づいてGPTモデルに最もよく似た入力を振り返りに識別するリグレードシステムを実装する。
関連論文リスト
- PaECTER: Patent-level Representation Learning using Citation-informed
Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - Collaborative Generative AI: Integrating GPT-k for Efficient Editing in
Text-to-Image Generation [114.80518907146792]
GPT-kのような大規模言語モデルを利用してテキスト・画像生成の迅速な編集プロセスを改善する可能性について検討する。
我々は、人間とGPT-kの共通編集を比較し、T2Iを誘導する際のGPT-kの性能を評価し、このプロセスに影響を与える可能性のある要因を検討する。
論文 参考訳(メタデータ) (2023-05-18T21:53:58Z) - Large-Scale Text Analysis Using Generative Language Models: A Case Study
in Discovering Public Value Expressions in AI Patents [2.246222223318928]
本稿では,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと論理式を生成する手法を提案する。
InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。
我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-05-17T17:18:26Z) - Shall We Pretrain Autoregressive Language Models with Retrieval? A
Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。
本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文 参考訳(メタデータ) (2023-04-13T18:04:19Z) - Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition [14.82259273703819]
自動音声認識(ASR)のための微調整GPT, GPT-2とその組み合わせを用いた結果を提案する。
双方向のLM出力に基づいて、正しい言語事前確率を計算するための変換法を提案する。
提案された言語事前確率の変換により、BERT は 3% の相対 WERR を受信できる。
論文 参考訳(メタデータ) (2021-07-29T16:53:37Z) - BARTScore: Evaluating Generated Text as Text Generation [89.50052670307434]
我々は、事前学習されたシーケンス・ツー・シーケンスモデルを用いてモデル化されたテキスト生成問題として、生成されたテキストの評価を概念化する。
我々は、エンコーダ-デコーダベースの事前学習モデルであるBARTを用いて、このアイデアを運用する。
本稿では,様々な視点からテキストの評価に柔軟に適用可能な,数多くの変種を持つメトリクスBARTScoreを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:53Z) - BERT based patent novelty search by training claims to their own
description [0.0]
我々は,BERTの出力を有意義に処理するために,新たなスコアリング方式,関連スコア,あるいは新規スコアを導入する。
特許に関する最初の主張とそれに対応する記述に基づいてBERTを訓練することにより,特許出願の手法を検証した。
BERTの出力は、検索レポートの引用X文書と比較して、関連スコアと結果に基づいて処理されている。
論文 参考訳(メタデータ) (2021-03-01T16:54:50Z) - Investigating African-American Vernacular English in Transformer-Based
Text Generation [55.53547556060537]
ソーシャルメディアはアフリカ系アメリカ人英語(AAVE)の使用を奨励している
AAVEテキスト上でのGPT-2の性能は、意図等価な並列AAVE/SAEツイートペアのデータセットを作成することによって検証する。
AAVEテキストはSAEよりもネガティブな感情の分類が多かったが、GPT-2の使用は概して肯定的な感情の発生を増加させている。
論文 参考訳(メタデータ) (2020-10-06T06:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。