論文の概要: A Unified Knowledge Graph Service for Developing Domain Language Models
in AI Software
- arxiv url: http://arxiv.org/abs/2212.05251v1
- Date: Sat, 10 Dec 2022 09:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:02:30.885084
- Title: A Unified Knowledge Graph Service for Developing Domain Language Models
in AI Software
- Title(参考訳): AIソフトウェアにおけるドメイン言語モデル構築のための統一知識グラフサービス
- Authors: Ruiqing Ding, Xiao Han, Leye Wang
- Abstract要約: 高品質なドメイン固有言語モデルを効率的に開発する方法は、AIソフトウェア工学において重要な問題である。
我々は、統一的でローコードなドメイン言語モデル開発サービスであるKnowledgeDAを提案する。
我々は、医療とソフトウェア開発という2つの分野の言語モデルを学ぶために、KnowledgeDAのプロトタイプを実装します。
- 参考スコア(独自算出の注目度): 10.28161912127425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing (NLP) is one of the core techniques in AI
software. As AI is being applied to more and more domains, how to efficiently
develop high-quality domain-specific language models becomes a critical
question in AI software engineering. Existing domain-specific language model
development processes mostly focus on learning a domain-specific pre-trained
language model (PLM); when training the domain task-specific language model
based on PLM, only a direct (and often unsatisfactory) fine-tuning strategy is
adopted commonly. By enhancing the task-specific training procedure with domain
knowledge graphs, we propose KnowledgeDA, a unified and low-code domain
language model development service. Given domain-specific task texts input by a
user, KnowledgeDA can automatically generate a domain-specific language model
following three steps: (i) localize domain knowledge entities in texts via an
embedding-similarity approach; (ii) generate augmented samples by retrieving
replaceable domain entity pairs from two views of both knowledge graph and
training data; (iii) select high-quality augmented samples for fine-tuning via
confidence-based assessment. We implement a prototype of KnowledgeDA to learn
language models for two domains, healthcare and software development.
Experiments on five domain-specific NLP tasks verify the effectiveness and
generalizability of KnowledgeDA. (Code is publicly available at
https://github.com/RuiqingDing/KnowledgeDA.)
- Abstract(参考訳): 自然言語処理(nlp)は、aiソフトウェアのコア技術の一つである。
AIがますます多くのドメインに適用されているため、高品質なドメイン固有言語モデルを効率的に開発する方法は、AIソフトウェアエンジニアリングにおいて重要な問題となっている。
既存のドメイン特化言語モデルの開発プロセスは、主にドメイン特化事前学習言語モデル(plm)の学習に焦点を当てています。
ドメイン知識グラフを用いてタスク固有のトレーニング手順を強化することで、統一的でローコードなドメイン言語モデル開発サービスであるknowledgedaを提案する。
ユーザが入力するドメイン固有のタスクテキストが与えられた場合、knowledgedaは以下の3ステップでドメイン固有の言語モデルを自動的に生成する。
(i)埋め込み類似性アプローチによるテキスト中のドメイン知識エンティティのローカライズ
(ii)知識グラフとトレーニングデータの2つのビューから置換可能なドメインエンティティペアを検索することにより、拡張されたサンプルを生成する。
(iii)信頼度に基づく評価による微調整のための高品質拡張現実サンプルを選択する。
我々は、医療とソフトウェア開発という2つの分野の言語モデルを学ぶために、KnowledgeDAのプロトタイプを実装します。
ドメイン固有の5つのNLPタスクの実験は、KnowledgeDAの有効性と一般化性を検証する。
(コード公開はhttps://github.com/RuiqingDing/KnowledgeDA)。
関連論文リスト
- Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - A Self-enhancement Approach for Domain-specific Chatbot Training via
Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。
本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。
我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文 参考訳(メタデータ) (2023-11-17T16:09:10Z) - Pretrained Domain-Specific Language Model for General Information
Retrieval Tasks in the AEC Domain [5.949779668853556]
各種情報検索タスクにおいて,ドメインコーパスとドメイン固有の事前学習型DLモデルがどのように性能を向上させるかは明らかでない。
本研究は,ドメインコーパスと各種伝達学習技術がIRタスクのDLモデルの性能に与える影響について検討する。
BERTベースのモデルは、すべてのIRタスクにおいて従来の手法よりも劇的に優れ、F1スコアの最大5.4%と10.1%の改善があった。
論文 参考訳(メタデータ) (2022-03-09T14:10:55Z) - Domain-oriented Language Pre-training with Adaptive Hybrid Masking and
Optimal Transport Alignment [43.874781718934486]
我々は、異なるアプリケーションドメインに対して事前訓練された言語モデルを適用するための一般的なドメイン指向のアプローチを提供する。
フレーズ知識を効果的に保存するために,補助訓練ツールとしてドメインフレーズプールを構築した。
我々はクロスエンティティアライメントを導入し、エンティティアライメントを弱い監督力として活用し、事前訓練されたモデルのセマンティックラーニングを強化する。
論文 参考訳(メタデータ) (2021-12-01T15:47:01Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z) - DS-TOD: Efficient Domain Specialization for Task Oriented Dialog [12.395323315744625]
大規模対話データセット上での自己教師型ダイアログ固有の事前学習は、下流タスク指向ダイアログ(TOD)における従来の言語モデリング(LM)よりも大幅に向上する。
タスク指向対話における事前学習言語モデル(PLM)のドメイン特殊化の効果について検討する。
本稿では,ドメインアダプタを用いた資源効率・モジュール型ドメイン特化手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T22:25:51Z) - Curriculum CycleGAN for Textual Sentiment Domain Adaptation with
Multiple Sources [68.31273535702256]
我々は,C-CycleGAN(C-CycleGAN)という,新しいインスタンスレベルのMDAフレームワークを提案する。
C-CycleGANは、(1)異なるドメインからのテキスト入力を連続的な表現空間にエンコードする事前訓練されたテキストエンコーダ、(2)ソースとターゲットドメイン間のギャップを埋めるカリキュラムインスタンスレベルの適応を伴う中間ドメインジェネレータ、(3)中間ドメインで最終感情分類のために訓練されたタスク分類器の3つのコンポーネントから構成される。
3つのベンチマークデータセットに対して広範な実験を行い、最先端のDAアプローチよりも大幅に向上した。
論文 参考訳(メタデータ) (2020-11-17T14:50:55Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z) - Domain Adaption for Knowledge Tracing [65.86619804954283]
本稿では,DAKT問題に対処するための新しい適応型フレームワーク,すなわち知識追跡(AKT)を提案する。
まず,Deep Knowledge Trace(DKT)に基づく教育的特徴(スリップ,推測,質問文など)を取り入れ,優れた知識追跡モデルを得る。
第2の側面として、3つのドメイン適応プロセスを提案し、採用する。まず、ターゲットモデルトレーニングに有用なソースインスタンスを選択するために、自動エンコーダを事前訓練する。
論文 参考訳(メタデータ) (2020-01-14T15:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。