論文の概要: Towards Continual Entity Learning in Language Models for Conversational
Agents
- arxiv url: http://arxiv.org/abs/2108.00082v1
- Date: Fri, 30 Jul 2021 21:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:40:00.166960
- Title: Towards Continual Entity Learning in Language Models for Conversational
Agents
- Title(参考訳): 会話エージェントのための言語モデルにおける連続的エンティティ学習に向けて
- Authors: Ravi Teja Gadde, Ivan Bulyko
- Abstract要約: 我々はエンティティ認識言語モデル(EALM)を導入し、エンティティのカタログに基づいて訓練されたエンティティモデルを事前訓練されたLMに統合する。
統合言語モデルでは,文コンテキストに応じて,エンティティモデルからの情報を事前学習したLMに適応的に付加する。
タスク指向対話データセットでは,特に長文発話では,難易度が大幅に向上した。
- 参考スコア(独自算出の注目度): 0.5330240017302621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural language models (LM) trained on diverse corpora are known to work well
on previously seen entities, however, updating these models with dynamically
changing entities such as place names, song titles and shopping items requires
re-training from scratch and collecting full sentences containing these
entities. We aim to address this issue, by introducing entity-aware language
models (EALM), where we integrate entity models trained on catalogues of
entities into the pre-trained LMs. Our combined language model adaptively adds
information from the entity models into the pre-trained LM depending on the
sentence context. Our entity models can be updated independently of the
pre-trained LM, enabling us to influence the distribution of entities output by
the final LM, without any further training of the pre-trained LM. We show
significant perplexity improvements on task-oriented dialogue datasets,
especially on long-tailed utterances, with an ability to continually adapt to
new entities (to an extent).
- Abstract(参考訳): 多様なコーパスで訓練されたニューラル言語モデル(LM)は、これまで見られたエンティティでうまく機能することが知られているが、場所名、曲名、ショッピングアイテムなどの動的に変化するエンティティでこれらのモデルを更新するには、スクラッチから再トレーニングし、それらのエンティティを含む全文を集める必要がある。
我々はエンティティ対応言語モデル(EALM)を導入し、エンティティのカタログに基づいて訓練されたエンティティモデルを事前訓練されたLMに組み込むことでこの問題に対処することを目指している。
統合言語モデルでは,文コンテキストに応じて,エンティティモデルからの情報を事前学習したLMに適応的に付加する。
我々のエンティティモデルは、事前訓練されたLMとは独立して更新することができ、事前訓練されたLMのさらなるトレーニングをすることなく、最終的なLMによって出力されるエンティティの分布に影響を与えることができる。
タスク指向の対話データセット、特に長い尾の発話において、新しいエンティティ(ある程度)に継続的に適応する能力において、大きなパープレキシティ向上を示す。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Tracking the perspectives of interacting language models [11.601000749578647]
大規模言語モデル(LLM)は前例のない速度で高品質な情報を生成することができる。
これらのモデルが社会に浸透し続ければ、それらが生み出すコンテンツはますますデータベースに浸透していくだろう。
論文 参考訳(メタデータ) (2024-06-17T17:20:16Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - LMPriors: Pre-Trained Language Models as Task-Specific Priors [78.97143833642971]
適切な事前条件でモデルを拡張するための原則的手法を開発した。
これは、世界に対する私たちの理解と相容れない方法で学ぶことを奨励するものです。
我々は,近年の大規模言語モデル(LM)の成功から着想を得た。
論文 参考訳(メタデータ) (2022-10-22T19:09:18Z) - Efficient and Interpretable Neural Models for Entity Tracking [3.1985066117432934]
この論文は、エンティティ追跡モデルの使用を促進するための2つの重要な問題に焦点を当てている。
我々は、リッチな固定次元ベクトル表現を持つエンティティを表現することによって、計算効率の良いエンティティ追跡モデルを開発することができると論じる。
i) NLPアプリケーションで現在ユビキタスに使われている事前学習言語モデルを考えると、より広い範囲のアプリケーションです。
論文 参考訳(メタデータ) (2022-08-30T13:25:27Z) - Entity Cloze By Date: What LMs Know About Unseen Entities [79.34707800653597]
言語モデル(LM)は通常、大規模なコーパスで一度訓練され、更新されずに数年間使用される。
本研究では,LMの事前学習時に存在しなかった新しいエンティティについて,LMがどのような推論ができるのかを解析する枠組みを提案する。
本論文は,その発祥日によって索引付けされたエンティティのデータセットを,英語のウィキペディア記事と組み合わせて作成し,各エンティティに関する文章を検索する。
論文 参考訳(メタデータ) (2022-05-05T17:59:31Z) - mLUKE: The Power of Entity Representations in Multilingual Pretrained
Language Models [15.873069955407406]
我々は、エンティティ表現を持つ24言語で多言語モデルを訓練する。
本稿では,言語間移動タスクにおいて,単語ベース事前学習モデルより一貫して優れることを示す。
また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-15T15:28:38Z) - MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。
我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文 参考訳(メタデータ) (2021-06-05T08:22:05Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。