論文の概要: Engineering Design Knowledge Graphs from Patented Artefact Descriptions
for Retrieval-Augmented Generation in the Design Process
- arxiv url: http://arxiv.org/abs/2307.06985v5
- Date: Wed, 7 Feb 2024 05:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:24:14.583678
- Title: Engineering Design Knowledge Graphs from Patented Artefact Descriptions
for Retrieval-Augmented Generation in the Design Process
- Title(参考訳): 設計プロセスにおける検索型生成のための特許人工物記述からのエンジニアリング設計知識グラフ
- Authors: L Siddharth, Jianxi Luo
- Abstract要約: 本稿では,800万件以上の人工物の標準記述を提供する特許文書から,明示的な事実を識別するデータ駆動方式を提案する。
提案手法をファンシステム関連特許4,870件に適用し,約300万件の知識ベースを蓄積する。
- 参考スコア(独自算出の注目度): 2.06682776181122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant popularity, Large-language Models (LLMs) require
explicit, contextual facts to support domain-specific knowledge-intensive tasks
in the design process. The applications built using LLMs should hence adopt
Retrieval-Augmented Generation (RAG) to better suit the design process. In this
article, we present a data-driven method to identify explicit facts from patent
documents that provide standard descriptions of over 8 million artefacts. In
our method, we train roBERTa Transformer-based sequence classification models
using our dataset of 44,227 sentences and facts. Upon classifying tokens in a
sentence as entities or relationships, our method uses another classifier to
identify specific relationship tokens for a given pair of entities so that
explicit facts of the form head entity :: relationship :: tail entity are
identified. In the benchmark approaches for constructing facts, we use linear
classifiers and Graph Neural Networks (GNNs) both incorporating BERT
Transformer-based token embeddings to predict associations among the entities
and relationships. We apply our method to 4,870 fan system related patents and
populate a knowledge base of around 3 million facts. Upon retrieving the facts
representing generalisable domain knowledge and the knowledge of specific
subsystems and issues, we demonstrate how these facts contextualise LLMs for
generating text that is more relevant to the design process.
- Abstract(参考訳): 大きな言語モデル(LLM)は非常に人気があるが、設計プロセスにおいてドメイン固有の知識集約タスクをサポートするために、明示的な文脈的な事実を必要とする。
LLMを使って構築されたアプリケーションは、設計プロセスに合うようにRetrieval-Augmented Generation (RAG)を採用する必要がある。
本稿では,800万以上のアーティファクトの標準記述を提供する特許文書から明らかな事実を識別するためのデータ駆動手法を提案する。
本手法では,44,227文と事実のデータセットを用いて,RoBERTaトランスフォーマーに基づくシーケンス分類モデルを訓練する。
文中のトークンをエンティティまたはリレーションシップとして分類すると、別の分類器を使用して与えられたエンティティの特定の関係トークンを識別し、フォームヘッドエンティティの明示的な事実 ::リレーション::テールエンティティを識別する。
ファクト構築のためのベンチマーク手法では,BERT変換器を用いたトークン埋め込みを組み込んだ線形分類器とグラフニューラルネットワークを用いて,実体と関係の関連性を予測する。
提案手法をファンシステム関連特許4,870件に適用し,約300万件の知識ベースを蓄積する。
一般的なドメイン知識を表す事実と特定のサブシステムや問題に関する知識を検索することで、これらの事実が設計プロセスにもっと関係のあるテキストを生成するためのllmをどのように文脈化するかを実証する。
関連論文リスト
- Retrieval-Enhanced Named Entity Recognition [1.2187048691454239]
RENERは、In-Context Learningと情報検索技術に基づく自己回帰言語モデルを用いたエンティティ認識手法である。
実験の結果,CrossNERコレクションでは,提案手法を用いて最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-17T01:12:48Z) - Establishing Knowledge Preference in Language Models [80.70632813935644]
言語モデルは事前学習を通じて大量の事実知識を符号化することが知られている。
このような知識はユーザーからの要求に応えるには不十分かもしれない。
進行中のイベントに関する質問に答える場合には、最新のニュース記事を使って回答を更新する必要がある。
ある事実がモデルで編集されると、更新された事実はモデルによって学習されたすべての事前知識をオーバーライドする。
論文 参考訳(メタデータ) (2024-07-17T23:16:11Z) - CANDLE: Iterative Conceptualization and Instantiation Distillation from Large Language Models for Commonsense Reasoning [45.62134354858683]
CANDLEは、コモンセンス知識ベースに対する概念化とインスタンス化を反復的に行うフレームワークである。
CANDLEをATOMICに適用することにより、600万の概念化と三重項のインスタンス化を含む総合的な知識基盤を構築する。
論文 参考訳(メタデータ) (2024-01-14T13:24:30Z) - Linguistic and Structural Basis of Engineering Design Knowledge [1.7495213911983414]
技術クラスによって階層化された特許のサンプルから,33,881個の知識グラフを収集した。
言語学的には、ユニークな実体と関係の周波数に基づいてZipf分布解析を行う。
構造的基盤として,生物・生態ネットワークの研究からインスピレーションを得て,特許知識グラフからモチーフを発見する。
論文 参考訳(メタデータ) (2023-12-11T13:03:39Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - Crawling the Internal Knowledge-Base of Language Models [53.95793060766248]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。
我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-01-30T12:03:36Z) - KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization
for Relation Extraction [111.74812895391672]
シナジスティック最適化(KnowPrompt)を用いた知識認識型Promptチューニング手法を提案する。
関係ラベルに含まれる潜在知識をインジェクトして,学習可能な仮想型語と解答語で構築する。
論文 参考訳(メタデータ) (2021-04-15T17:57:43Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z) - Common-Knowledge Concept Recognition for SEVA [15.124939896007472]
我々はシステムエンジニアの仮想アシスタント(SEVA)のための共通知識概念認識システムを構築した。
この問題は、名前付きエンティティ抽出と同様のトークン分類タスクとして定式化される。
システム工学の概念を認識するためにシーケンスモデルをトレーニングするためのラベル付けスキームを慎重に定義することにより、単語レベルで注釈付けされたデータセットを構築する。
論文 参考訳(メタデータ) (2020-03-26T00:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。