論文の概要: Retrieval Augmented Generation using Engineering Design Knowledge
- arxiv url: http://arxiv.org/abs/2307.06985v6
- Date: Wed, 10 Apr 2024 07:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 19:35:31.959531
- Title: Retrieval Augmented Generation using Engineering Design Knowledge
- Title(参考訳): 工学設計知識を用いた検索拡張生成
- Authors: L Siddharth, Jianxi Luo,
- Abstract要約: 大規模言語モデル(LLM)は、設計プロセスにおける知識ベースのアプリケーションに適した事実応答を生成するために、RAG(Retrieval-Augmented Generation)を採用する必要がある。
本稿では,その形態の明示的な事実を識別するデータ駆動手法を提案する。
- 参考スコア(独自算出の注目度): 1.7495213911983414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-language Models (LLMs) need to adopt Retrieval-Augmented Generation (RAG) to generate factual responses that are better suited to knowledge-based applications in the design process. We present a data-driven method to identify explicit facts of the form - head entity :: relationship :: tail entity from patented artefact descriptions. We train roBERTa Transformer-based sequence classification models using our proprietary dataset of 44,227 sentences. Upon classifying tokens in a sentence as entities or relationships, our method uses another classifier to identify specific relationship tokens for a given pair of entities. We compare the performances against linear classifiers and Graph Neural Networks (GNNs) that both incorporate BERT Transformer-based token embeddings to predict associations among the entities and relationships. We apply our method to 4,870 fan system related patents and populate a knowledge base that constitutes around 3 million facts. Using the knowledge base, we demonstrate retrieving generalisable and specific domain knowledge for contextualising LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、設計プロセスにおける知識ベースのアプリケーションに適した事実応答を生成するために、RAG(Retrieval-Augmented Generation)を採用する必要がある。
本稿では,その形態の明示的な事実を識別するデータ駆動手法を提案する。
我々は、44,227文の独自のデータセットを用いて、RoBERTa Transformerベースのシーケンス分類モデルを訓練する。
文中のトークンをエンティティまたはリレーションシップとして分類すると、そのメソッドは、与えられたエンティティのペアの特定のリレーショントークンを識別するために、別の分類器を使用する。
BERT変換器をベースとしたトークン埋め込みを組み込んだ線形分類器とグラフニューラルネットワーク(GNN)の性能を比較し,実体と関係の関連性を予測する。
提案手法をファンシステム関連特許4,870件に適用し,約300万件のファクトを構成する知識ベースを蓄積する。
知識ベースを用いて,LLMのコンテキスト化のための一般知識と特定ドメイン知識の検索を実演する。
関連論文リスト
- Retrieval-Enhanced Named Entity Recognition [1.2187048691454239]
RENERは、In-Context Learningと情報検索技術に基づく自己回帰言語モデルを用いたエンティティ認識手法である。
実験の結果,CrossNERコレクションでは,提案手法を用いて最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-17T01:12:48Z) - Establishing Knowledge Preference in Language Models [80.70632813935644]
言語モデルは事前学習を通じて大量の事実知識を符号化することが知られている。
このような知識はユーザーからの要求に応えるには不十分かもしれない。
進行中のイベントに関する質問に答える場合には、最新のニュース記事を使って回答を更新する必要がある。
ある事実がモデルで編集されると、更新された事実はモデルによって学習されたすべての事前知識をオーバーライドする。
論文 参考訳(メタデータ) (2024-07-17T23:16:11Z) - CANDLE: Iterative Conceptualization and Instantiation Distillation from Large Language Models for Commonsense Reasoning [45.62134354858683]
CANDLEは、コモンセンス知識ベースに対する概念化とインスタンス化を反復的に行うフレームワークである。
CANDLEをATOMICに適用することにより、600万の概念化と三重項のインスタンス化を含む総合的な知識基盤を構築する。
論文 参考訳(メタデータ) (2024-01-14T13:24:30Z) - Linguistic and Structural Basis of Engineering Design Knowledge [1.7495213911983414]
技術クラスによって階層化された特許のサンプルから,33,881個の知識グラフを収集した。
言語学的には、ユニークな実体と関係の周波数に基づいてZipf分布解析を行う。
構造的基盤として,生物・生態ネットワークの研究からインスピレーションを得て,特許知識グラフからモチーフを発見する。
論文 参考訳(メタデータ) (2023-12-11T13:03:39Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - Crawling the Internal Knowledge-Base of Language Models [53.95793060766248]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。
我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-01-30T12:03:36Z) - KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization
for Relation Extraction [111.74812895391672]
シナジスティック最適化(KnowPrompt)を用いた知識認識型Promptチューニング手法を提案する。
関係ラベルに含まれる潜在知識をインジェクトして,学習可能な仮想型語と解答語で構築する。
論文 参考訳(メタデータ) (2021-04-15T17:57:43Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z) - Common-Knowledge Concept Recognition for SEVA [15.124939896007472]
我々はシステムエンジニアの仮想アシスタント(SEVA)のための共通知識概念認識システムを構築した。
この問題は、名前付きエンティティ抽出と同様のトークン分類タスクとして定式化される。
システム工学の概念を認識するためにシーケンスモデルをトレーニングするためのラベル付けスキームを慎重に定義することにより、単語レベルで注釈付けされたデータセットを構築する。
論文 参考訳(メタデータ) (2020-03-26T00:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。