論文の概要: Retrieval Augmented Generation using Engineering Design Knowledge
- arxiv url: http://arxiv.org/abs/2307.06985v9
- Date: Wed, 19 Jun 2024 23:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 08:50:40.530771
- Title: Retrieval Augmented Generation using Engineering Design Knowledge
- Title(参考訳): 工学設計知識を用いた検索拡張生成
- Authors: L. Siddharth, Jianxi Luo,
- Abstract要約: 本稿では,特許資料から明確で工学的な設計事実を識別する手法を提案する。
本手法では,一対のエンティティが一意にマークされた文を与えられた場合,その文で明示的に伝達される関係を抽出する。
4,870件のファンシステム特許のドメインにこの手法を適用すると、2,93万件以上の知識ベースを蓄積する。
- 参考スコア(独自算出の注目度): 1.7495213911983414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aiming to support Retrieval Augmented Generation (RAG) in the design process, we present a method to identify explicit, engineering design facts - {head entity :: relationship :: tail entity} from patented artefact descriptions. Given a sentence with a pair of entities (based on noun phrases) marked in a unique manner, our method extracts the relationship that is explicitly communicated in the sentence. For this task, we create a dataset of 375,084 examples and fine-tune language models for relation identification (token classification) and elicitation (sequence-to-sequence). The token classification approach achieves up to 99.7% accuracy. Upon applying the method to a domain of 4,870 fan system patents, we populate a knowledge base of over 2.93 million facts. Using this knowledge base, we demonstrate how Large Language Models (LLMs) are guided by explicit facts to synthesise knowledge and generate technical and cohesive responses when sought out for knowledge retrieval tasks in the design process.
- Abstract(参考訳): 設計プロセスにおける検索拡張生成(RAG)を支援するため,特許された人工物記述から,明示的で工学的な設計事実を識別する手法として, {head entity :: relationship :: tail entity} を提案する。
一対のエンティティ(名詞句に基づく)を一意にマークした文を与えられた場合,本手法は文中で明示的に伝達される関係を抽出する。
そこで本研究では,375,084例のデータセットと,関係識別(token classification)と帰納(sequence-to-sequence)のための微調整言語モデルを作成する。
トークン分類のアプローチでは、99.7%の精度が達成される。
4,870件のファンシステム特許のドメインにこの手法を適用すると、2,93万件以上の知識ベースを蓄積する。
この知識ベースを用いて、設計プロセスにおける知識検索タスクの探索において、Large Language Model(LLM)が、知識を合成し、技術的および凝集的な応答を生成するための明示的な事実によってどのように導かれるかを実証する。
関連論文リスト
- Retrieval-Enhanced Named Entity Recognition [1.2187048691454239]
RENERは、In-Context Learningと情報検索技術に基づく自己回帰言語モデルを用いたエンティティ認識手法である。
実験の結果,CrossNERコレクションでは,提案手法を用いて最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-17T01:12:48Z) - Establishing Knowledge Preference in Language Models [80.70632813935644]
言語モデルは事前学習を通じて大量の事実知識を符号化することが知られている。
このような知識はユーザーからの要求に応えるには不十分かもしれない。
進行中のイベントに関する質問に答える場合には、最新のニュース記事を使って回答を更新する必要がある。
ある事実がモデルで編集されると、更新された事実はモデルによって学習されたすべての事前知識をオーバーライドする。
論文 参考訳(メタデータ) (2024-07-17T23:16:11Z) - CANDLE: Iterative Conceptualization and Instantiation Distillation from Large Language Models for Commonsense Reasoning [45.62134354858683]
CANDLEは、コモンセンス知識ベースに対する概念化とインスタンス化を反復的に行うフレームワークである。
CANDLEをATOMICに適用することにより、600万の概念化と三重項のインスタンス化を含む総合的な知識基盤を構築する。
論文 参考訳(メタデータ) (2024-01-14T13:24:30Z) - Linguistic and Structural Basis of Engineering Design Knowledge [1.7495213911983414]
技術クラスによって階層化された特許のサンプルから,33,881個の知識グラフを収集した。
言語学的には、ユニークな実体と関係の周波数に基づいてZipf分布解析を行う。
構造的基盤として,生物・生態ネットワークの研究からインスピレーションを得て,特許知識グラフからモチーフを発見する。
論文 参考訳(メタデータ) (2023-12-11T13:03:39Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - Crawling the Internal Knowledge-Base of Language Models [53.95793060766248]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。
我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-01-30T12:03:36Z) - KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization
for Relation Extraction [111.74812895391672]
シナジスティック最適化(KnowPrompt)を用いた知識認識型Promptチューニング手法を提案する。
関係ラベルに含まれる潜在知識をインジェクトして,学習可能な仮想型語と解答語で構築する。
論文 参考訳(メタデータ) (2021-04-15T17:57:43Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z) - Common-Knowledge Concept Recognition for SEVA [15.124939896007472]
我々はシステムエンジニアの仮想アシスタント(SEVA)のための共通知識概念認識システムを構築した。
この問題は、名前付きエンティティ抽出と同様のトークン分類タスクとして定式化される。
システム工学の概念を認識するためにシーケンスモデルをトレーニングするためのラベル付けスキームを慎重に定義することにより、単語レベルで注釈付けされたデータセットを構築する。
論文 参考訳(メタデータ) (2020-03-26T00:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。