論文の概要: KALA: Knowledge-Augmented Language Model Adaptation
- arxiv url: http://arxiv.org/abs/2204.10555v1
- Date: Fri, 22 Apr 2022 08:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 22:51:22.675613
- Title: KALA: Knowledge-Augmented Language Model Adaptation
- Title(参考訳): KALA:知識強化型言語モデル適応
- Authors: Minki Kang, Jinheon Baek, Sung Ju Hwang
- Abstract要約: プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。
知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。
計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
- 参考スコア(独自算出の注目度): 65.92457495576141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models (PLMs) have achieved remarkable success on
various natural language understanding tasks. Simple fine-tuning of PLMs, on
the other hand, might be suboptimal for domain-specific tasks because they
cannot possibly cover knowledge from all domains. While adaptive pre-training
of PLMs can help them obtain domain-specific knowledge, it requires a large
training cost. Moreover, adaptive pre-training can harm the PLM's performance
on the downstream task by causing catastrophic forgetting of its general
knowledge. To overcome such limitations of adaptive pre-training for PLM
adaption, we propose a novel domain adaption framework for PLMs coined as
Knowledge-Augmented Language model Adaptation (KALA), which modulates the
intermediate hidden representations of PLMs with domain knowledge, consisting
of entities and their relational facts. We validate the performance of our KALA
on question answering and named entity recognition tasks on multiple datasets
across various domains. The results show that, despite being computationally
efficient, our KALA largely outperforms adaptive pre-training. Code is
available at: https://github.com/Nardien/KALA/.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、様々な自然言語理解タスクにおいて顕著な成功を収めた。
一方、plmの単純な微調整は、すべてのドメインからの知識をカバーできないため、ドメイン固有のタスクには最適ではないかもしれない。
PLMの適応的な事前トレーニングは、ドメイン固有の知識を得るのに役立つが、大きなトレーニングコストを必要とする。
さらに、適応事前学習は、その一般的な知識を壊滅的に忘れることによって、下流タスクにおけるPLMのパフォーマンスを損なう可能性がある。
PLM適応のための適応型事前学習の制限を克服するため,知識拡張言語モデル適応(KALA)と呼ばれる新しいドメイン適応フレームワークを提案し,エンティティとそれらの関係事実からなるドメイン知識によるPLMの中間的隠れ表現を変調する。
様々な領域にまたがる複数のデータセット上で,質問応答とエンティティ認識タスクの命名によるKALAの性能評価を行った。
その結果,計算効率は高いものの,kalaは適応型事前学習よりも優れていた。
コードはhttps://github.com/nardien/kala/。
関連論文リスト
- Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Empowering Source-Free Domain Adaptation with MLLM-driven Curriculum Learning [5.599218556731767]
Source-Free Domain Adaptation (SFDA)は、未ラベルのターゲットデータのみを使用して、トレーニング済みのソースモデルをターゲットドメインに適応することを目的としている。
Reliability-based Curriculum Learning (RCL)は、SFDAの擬似ラベルによる知識活用のために複数のMLLMを統合している。
論文 参考訳(メタデータ) (2024-05-28T17:18:17Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - VarMAE: Pre-training of Variational Masked Autoencoder for
Domain-adaptive Language Understanding [5.1282202633907]
本稿では,ドメイン適応型言語理解のためのトランスフォーマーベース言語モデルであるVarMAEを提案する。
マスク付き自動符号化の目的のもと,トークンのコンテキストをスムーズな潜伏分布に符号化するコンテキスト不確実性学習モジュールを設計する。
科学および金融分野におけるNLUタスクの実験は、VarMAEが限られたリソースを持つ新しいドメインに効率的に適応できることを実証している。
論文 参考訳(メタデータ) (2022-11-01T12:51:51Z) - Domain-oriented Language Pre-training with Adaptive Hybrid Masking and
Optimal Transport Alignment [43.874781718934486]
我々は、異なるアプリケーションドメインに対して事前訓練された言語モデルを適用するための一般的なドメイン指向のアプローチを提供する。
フレーズ知識を効果的に保存するために,補助訓練ツールとしてドメインフレーズプールを構築した。
我々はクロスエンティティアライメントを導入し、エンティティアライメントを弱い監督力として活用し、事前訓練されたモデルのセマンティックラーニングを強化する。
論文 参考訳(メタデータ) (2021-12-01T15:47:01Z) - RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-24T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。