論文の概要: OntoTune: Ontology-Driven Self-training for Aligning Large Language Models
- arxiv url: http://arxiv.org/abs/2502.05478v1
- Date: Sat, 08 Feb 2025 07:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:04.310894
- Title: OntoTune: Ontology-Driven Self-training for Aligning Large Language Models
- Title(参考訳): OntoTune: オントロジー駆動による大規模言語モデルの自己学習
- Authors: Zhiqiang Liu, Chengtao Gan, Junjie Wang, Yichi Zhang, Zhongpu Bo, Mengshu Sun, Huajun Chen, Wen Zhang,
- Abstract要約: 大規模コーパスの訓練はしばしば、大規模言語モデルのドメイン知識を効果的に組織化するのに失敗する。
そこで我々は,オントトゥン(OntoTune)というオントロジー駆動の自己学習フレームワークを提案する。
本研究は,オントトゥンの有効性を評価するために,医学領域で実施する。
- 参考スコア(独自算出の注目度): 36.707858872631945
- License:
- Abstract: Existing domain-specific Large Language Models (LLMs) are typically developed by fine-tuning general-purposed LLMs with large-scale domain-specific corpora. However, training on large-scale corpora often fails to effectively organize domain knowledge of LLMs, leading to fragmented understanding. Inspired by how humans connect concepts and organize knowledge through mind maps, we aim to emulate this approach by using ontology with hierarchical conceptual knowledge to reorganize LLM's domain knowledge. From this perspective, we propose an ontology-driven self-training framework called OntoTune, which aims to align LLMs with ontology through in-context learning, enabling the generation of responses guided by the ontology. We leverage in-context learning to identify whether the LLM has acquired the specific concept's ontology knowledge, and select the entries not yet mastered by LLM as the training set to further align the LLM with ontology. Compared to existing domain LLMs based on newly collected large-scale domain-specific corpora, our OntoTune, which relies on the existing, long-term developed ontology and LLM itself, significantly reduces data maintenance costs and offers improved generalization ability. We conduct our study in the medical domain to evaluate the effectiveness of OntoTune, utilizing a standardized medical ontology, SNOMED CT as our ontology source. Experimental results demonstrate that OntoTune achieves state-of-the-art performance in both in-ontology task hypernym discovery and out-of-ontology task medical domain QA. Moreover, compared to the latest direct ontology injection method TaxoLLaMA, our OntoTune better preserves original knowledge of LLM. The code and data are available at https://github.com/zjukg/OntoTune.
- Abstract(参考訳): 既存のドメイン特化言語モデル(LLM)は、大規模ドメイン特化コーパスを用いた微調整汎用LLMによって開発されるのが一般的である。
しかし、大規模コーパスでのトレーニングは、LLMのドメイン知識を効果的に整理するのに失敗し、断片化された理解に繋がる。
ヒトが概念を結び、マインドマップを通して知識を組織する方法に触発されて、オントロジーと階層的な概念知識を用いて、LLMのドメイン知識を再編成することで、このアプローチをエミュレートすることを目指している。
そこで本研究では,オントトゥン(OntoTune)というオントロジー駆動型自己学習フレームワークを提案する。
我々は,LLMが特定の概念のオントロジー知識を取得したかどうかを確認するために,文脈内学習を活用し,LLMがまだ習得していないエントリをトレーニングセットとして選択し,LLMとオントロジーをさらに整合させる。
新たに収集した大規模ドメイン固有コーパスをベースとした既存ドメインLLMと比較して,既存の長期開発オントロジーとLLM自体に依存したOntoTuneは,データ保守コストを大幅に削減し,一般化能力の向上を実現している。
本研究は,オントトゥン(OntoTune)の有効性を評価するために,オントトゥン(OntoTune)の標準オントロジーであるSNOMED CTをオントロジー源として,医学領域で実施する。
実験の結果,OntoTuneはオントロジー・タスク・ハイパーネム発見とアウトオブオントロジー・タスク・メディカル・ドメインQAの両方において最先端のパフォーマンスを達成していることがわかった。
さらに,最新の直接オントロジー注入法であるTaxoLLaMAと比較して,オントトゥンはLSMの本来の知識をよりよく保存する。
コードとデータはhttps://github.com/zjukg/OntoTune.comで公開されている。
関連論文リスト
- RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - Enriching Ontologies with Disjointness Axioms using Large Language Models [5.355177558868206]
大型モデル(LLM)は、クラス不整合公理を識別し、主張することで一貫性を提供する。
本研究の目的は,LLMに埋め込まれた暗黙の知識を活用して,存在論的不一致を分類することである。
以上の結果から, LLMは効果的なプロンプト戦略によって導かれることにより, 不整合性関係を確実に識別できることが示唆された。
論文 参考訳(メタデータ) (2024-10-04T09:00:06Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Do LLMs Really Adapt to Domains? An Ontology Learning Perspective [2.0755366440393743]
大規模言語モデル(LLM)は、様々なアプリケーション領域において、様々な自然言語処理タスクに対して前例のない進歩を見せている。
近年の研究では、LLMが知識ベースコンプリート(KBC)やオントロジー学習(OL)などの語彙意味タスクに活用できることが示されている。
LLMは本当にドメインに適応し、構造化知識の抽出に一貫性を持ち続けるのか、それとも推論の代わりに語彙感覚のみを学ぶのか?
論文 参考訳(メタデータ) (2024-07-29T13:29:43Z) - Towards Ontology-Enhanced Representation Learning for Large Language Models [0.18416014644193066]
本稿では,知識を参照オントロジーで注入することで,埋め込み言語モデル(埋め込み言語モデル)の関心を高める新しい手法を提案する。
言語情報(概念同義語と記述)と構造情報(is-a関係)は、包括的な概念定義の集合をコンパイルするために使用される。
これらの概念定義は、対照的な学習フレームワークを使用して、ターゲットの埋め込み-LLMを微調整するために使用される。
論文 参考訳(メタデータ) (2024-05-30T23:01:10Z) - Large language models as oracles for instantiating ontologies with domain-specific knowledge [0.0]
ドメイン固有の知識を自動的にインスタンス化するドメインに依存しない手法を提案する。
提案手法は,複数回クエリを行い,その応答からクラスとプロパティのインスタンスを生成する。
実験により,本手法は最先端技術よりも最大5倍高い精度を実現した。
論文 参考訳(メタデータ) (2024-04-05T14:04:07Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Fine-tuning Large Enterprise Language Models via Ontological Reasoning [5.12835891233968]
大きな言語モデル(LLM)はタスク固有のトレーニングデータのおかげで、さまざまな目標に適応するためのテクニックとして微調整を利用する。
LLMファインチューニングのためのタスクとドメイン固有のコーパスを構築するために、存在論的推論の力を利用する新しいニューロシンボリックアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-19T06:48:45Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。