論文の概要: A Unified Knowledge Graph Service for Developing Domain Language Models
in AI Software
- arxiv url: http://arxiv.org/abs/2212.05251v1
- Date: Sat, 10 Dec 2022 09:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:02:30.885084
- Title: A Unified Knowledge Graph Service for Developing Domain Language Models
in AI Software
- Title(参考訳): AIソフトウェアにおけるドメイン言語モデル構築のための統一知識グラフサービス
- Authors: Ruiqing Ding, Xiao Han, Leye Wang
- Abstract要約: 高品質なドメイン固有言語モデルを効率的に開発する方法は、AIソフトウェア工学において重要な問題である。
我々は、統一的でローコードなドメイン言語モデル開発サービスであるKnowledgeDAを提案する。
我々は、医療とソフトウェア開発という2つの分野の言語モデルを学ぶために、KnowledgeDAのプロトタイプを実装します。
- 参考スコア(独自算出の注目度): 10.28161912127425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing (NLP) is one of the core techniques in AI
software. As AI is being applied to more and more domains, how to efficiently
develop high-quality domain-specific language models becomes a critical
question in AI software engineering. Existing domain-specific language model
development processes mostly focus on learning a domain-specific pre-trained
language model (PLM); when training the domain task-specific language model
based on PLM, only a direct (and often unsatisfactory) fine-tuning strategy is
adopted commonly. By enhancing the task-specific training procedure with domain
knowledge graphs, we propose KnowledgeDA, a unified and low-code domain
language model development service. Given domain-specific task texts input by a
user, KnowledgeDA can automatically generate a domain-specific language model
following three steps: (i) localize domain knowledge entities in texts via an
embedding-similarity approach; (ii) generate augmented samples by retrieving
replaceable domain entity pairs from two views of both knowledge graph and
training data; (iii) select high-quality augmented samples for fine-tuning via
confidence-based assessment. We implement a prototype of KnowledgeDA to learn
language models for two domains, healthcare and software development.
Experiments on five domain-specific NLP tasks verify the effectiveness and
generalizability of KnowledgeDA. (Code is publicly available at
https://github.com/RuiqingDing/KnowledgeDA.)
- Abstract(参考訳): 自然言語処理(nlp)は、aiソフトウェアのコア技術の一つである。
AIがますます多くのドメインに適用されているため、高品質なドメイン固有言語モデルを効率的に開発する方法は、AIソフトウェアエンジニアリングにおいて重要な問題となっている。
既存のドメイン特化言語モデルの開発プロセスは、主にドメイン特化事前学習言語モデル(plm)の学習に焦点を当てています。
ドメイン知識グラフを用いてタスク固有のトレーニング手順を強化することで、統一的でローコードなドメイン言語モデル開発サービスであるknowledgedaを提案する。
ユーザが入力するドメイン固有のタスクテキストが与えられた場合、knowledgedaは以下の3ステップでドメイン固有の言語モデルを自動的に生成する。
(i)埋め込み類似性アプローチによるテキスト中のドメイン知識エンティティのローカライズ
(ii)知識グラフとトレーニングデータの2つのビューから置換可能なドメインエンティティペアを検索することにより、拡張されたサンプルを生成する。
(iii)信頼度に基づく評価による微調整のための高品質拡張現実サンプルを選択する。
我々は、医療とソフトウェア開発という2つの分野の言語モデルを学ぶために、KnowledgeDAのプロトタイプを実装します。
ドメイン固有の5つのNLPタスクの実験は、KnowledgeDAの有効性と一般化性を検証する。
(コード公開はhttps://github.com/RuiqingDing/KnowledgeDA)。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding [41.49771026674969]
本稿では,ドメイン一般化ポイントクラウド理解のための統一モデルにおいて,複数のドメインと複数のタスクを扱う,新しい,実用的なマルチドメインマルチタスク設定を提案する。
我々のDG-PICは、テスト中にモデル更新を一切必要とせず、見えないドメインと複数のタスク、例えば、ポイントクラウドの再構築、デノナイズ、登録を1つの統一モデルで処理できる。
論文 参考訳(メタデータ) (2024-07-11T18:21:40Z) - A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文 参考訳(メタデータ) (2024-06-14T09:52:27Z) - Boosting Large Language Models with Continual Learning for Aspect-based Sentiment Analysis [33.86086075084374]
アスペクトベース感情分析(ABSA)は感情分析の重要なサブタスクである。
ABSAのための大規模言語モデルに基づく連続学習(textttLLM-CL)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-09T02:00:07Z) - Adapting to Distribution Shift by Visual Domain Prompt Generation [34.19066857066073]
いくつかのラベルのないデータを使って、テスト時にモデルを適応し、分散シフトに対処する。
ソースドメインから移行可能な知識を学ぶための知識銀行を構築します。
提案手法は,WILDSやDomainNetを含む5つの大規模ベンチマークにおいて,従来よりも優れている。
論文 参考訳(メタデータ) (2024-05-05T02:44:04Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z) - Curriculum CycleGAN for Textual Sentiment Domain Adaptation with
Multiple Sources [68.31273535702256]
我々は,C-CycleGAN(C-CycleGAN)という,新しいインスタンスレベルのMDAフレームワークを提案する。
C-CycleGANは、(1)異なるドメインからのテキスト入力を連続的な表現空間にエンコードする事前訓練されたテキストエンコーダ、(2)ソースとターゲットドメイン間のギャップを埋めるカリキュラムインスタンスレベルの適応を伴う中間ドメインジェネレータ、(3)中間ドメインで最終感情分類のために訓練されたタスク分類器の3つのコンポーネントから構成される。
3つのベンチマークデータセットに対して広範な実験を行い、最先端のDAアプローチよりも大幅に向上した。
論文 参考訳(メタデータ) (2020-11-17T14:50:55Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z) - Domain Adaption for Knowledge Tracing [65.86619804954283]
本稿では,DAKT問題に対処するための新しい適応型フレームワーク,すなわち知識追跡(AKT)を提案する。
まず,Deep Knowledge Trace(DKT)に基づく教育的特徴(スリップ,推測,質問文など)を取り入れ,優れた知識追跡モデルを得る。
第2の側面として、3つのドメイン適応プロセスを提案し、採用する。まず、ターゲットモデルトレーニングに有用なソースインスタンスを選択するために、自動エンコーダを事前訓練する。
論文 参考訳(メタデータ) (2020-01-14T15:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。