論文の概要: Patent-publication pairs for the detection of knowledge transfer from research to industry: reducing ambiguities with word embeddings and references
- arxiv url: http://arxiv.org/abs/2412.00978v1
- Date: Sun, 01 Dec 2024 21:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:40:30.414692
- Title: Patent-publication pairs for the detection of knowledge transfer from research to industry: reducing ambiguities with word embeddings and references
- Title(参考訳): 研究から産業への知識移転検出のための特許パブリケーションペア--単語埋め込みと参照による曖昧さの低減
- Authors: Klaus Lippert, Konrad U. Förstner,
- Abstract要約: 我々は、特許を研究の経済的影響の代案として利用するために、出版と出版の両面を識別する。
当社の完全なデータ処理パイプラインは無償で利用可能です。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The performance of medical research can be viewed and evaluated not only from the perspective of publication output, but also from the perspective of economic exploitability. Patents can represent the exploitation of research results and thus the transfer of knowledge from research to industry. In this study, we set out to identify publication-patent pairs in order to use patents as a proxy for the economic impact of research. To identify these pairs, we matched scholarly publications and patents by comparing the names of authors and investors. To resolve the ambiguities that arise in this name-matching process, we expanded our approach with two additional filter features, one used to assess the similarity of text content, the other to identify common references in the two document types. To evaluate text similarity, we extracted and transformed technical terms from a medical ontology (MeSH) into numerical vectors using word embeddings. We then calculated the results of the two supporting features over an example five-year period. Furthermore, we developed a statistical procedure which can be used to determine valid patent classes for the domain of medicine. Our complete data processing pipeline is freely available, from the raw data of the two document types right through to the validated publication-patent pairs.
- Abstract(参考訳): 医学研究の成果は、出版物のアウトプットの観点からだけでなく、経済的搾取性の観点からも見ることができ、評価することができる。
特許は、研究結果の活用と、研究から産業への知識の移転を表すことができる。
本研究では,特許を研究の経済的影響の指標として活用するために,パブリッシュ・パテント・ペアを同定することを試みた。
これらのペアを識別するために、著者と投資家の名前を比較することによって学術出版物と特許を照合した。
この名前マッチングプロセスで生じるあいまいさを解決するために,テキスト内容の類似性を評価するためのフィルタ機能と,2つの文書タイプにおける共通参照を識別する手法を2つ追加して拡張した。
テキストの類似性を評価するため,医療オントロジー(MeSH)から単語埋め込みを用いた数値ベクトルへ技術的用語を抽出し,変換した。
次に,5年間の例において,2つのサポート機能の結果を算出した。
さらに,医学領域の有効な特許クラスを決定するために,統計学的手法を開発した。
私たちの完全なデータ処理パイプラインは、2つのドキュメントタイプの生データから、検証済みのパブリッシュ-パテントペアまで、自由に利用できます。
関連論文リスト
- A comparative analysis of embedding models for patent similarity [0.0]
本稿では,テキストに基づく特許類似性の分野に2つの貢献をする。
これは、異なる種類の特許固有の事前訓練された埋め込みモデルの性能を比較する。
論文 参考訳(メタデータ) (2024-03-25T11:20:23Z) - Connecting the Dots: Inferring Patent Phrase Similarity with Retrieved Phrase Graphs [18.86788223751979]
本稿では,2つの特許句間の意味的類似度を測定する特許フレーズ類似性推論タスクについて検討する。
本稿では,特許用語のグローバルな文脈情報を増幅するためのグラフ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T18:59:38Z) - PaECTER: Patent-level Representation Learning using Citation-informed
Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - A Novel Patent Similarity Measurement Methodology: Semantic Distance and
Technological Distance [0.0]
特許類似性分析は、特許侵害のリスクを評価する上で重要な役割を果たす。
自然言語処理技術の最近の進歩は、このプロセスを自動化するための有望な道を提供する。
本稿では,特許間の類似性を考慮し,特許の意味的類似性を考慮し,特許間の類似度を測定するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T07:55:31Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - Tag-Aware Document Representation for Research Paper Recommendation [68.8204255655161]
本稿では,ユーザによって割り当てられたソーシャルタグに基づいて,研究論文の深い意味表現を活用するハイブリッドアプローチを提案する。
提案手法は,評価データが極めて少ない場合でも研究論文の推薦に有効である。
論文 参考訳(メタデータ) (2022-09-08T09:13:07Z) - A Survey on Sentence Embedding Models Performance for Patent Analysis [0.0]
本稿では,PatentSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。
patentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings is the most accuracy for computing sentence embeddeds at the subclass level。
論文 参考訳(メタデータ) (2022-04-28T12:04:42Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - MedLatinEpi and MedLatinLit: Two Datasets for the Computational
Authorship Analysis of Medieval Latin Texts [72.16295267480838]
我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能にしている。
MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成されており、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
論文 参考訳(メタデータ) (2020-06-22T14:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。