論文の概要: Preserving Generalization of Language models in Few-shot Continual Relation Extraction
- arxiv url: http://arxiv.org/abs/2410.00334v1
- Date: Tue, 1 Oct 2024 02:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:16:28.748418
- Title: Preserving Generalization of Language models in Few-shot Continual Relation Extraction
- Title(参考訳): Few-shot連続関係抽出における言語モデルの一般化の保存
- Authors: Quyen Tran, Nguyen Xuan Thanh, Nguyen Hoang Anh, Nam Le Hai, Trung Le, Linh Van Ngo, Thien Huu Nguyen,
- Abstract要約: FCRE(Few-shot Continual Relations extract)は、新たな研究分野である。
本稿では,よく捨てられる言語モデルヘッドを活用する新しい手法を提案する。
提案手法の有効性を実証し,今後の研究に有用な知見を提供する。
- 参考スコア(独自算出の注目度): 34.68364639170838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot Continual Relations Extraction (FCRE) is an emerging and dynamic area of study where models can sequentially integrate knowledge from new relations with limited labeled data while circumventing catastrophic forgetting and preserving prior knowledge from pre-trained backbones. In this work, we introduce a novel method that leverages often-discarded language model heads. By employing these components via a mutual information maximization strategy, our approach helps maintain prior knowledge from the pre-trained backbone and strategically aligns the primary classification head, thereby enhancing model performance. Furthermore, we explore the potential of Large Language Models (LLMs), renowned for their wealth of knowledge, in addressing FCRE challenges. Our comprehensive experimental results underscore the efficacy of the proposed method and offer valuable insights for future work.
- Abstract(参考訳): FCRE(Few-shot Continual Relations extract)は、限られたラベル付きデータとの新たな関係から知識を逐次統合し、破滅的な忘れ込みを回避し、事前訓練されたバックボーンから事前知識を保存できる、新しい研究分野である。
本研究では,よく捨てられる言語モデルヘッドを活用する新しい手法を提案する。
本手法は,これらのコンポーネントを相互情報最大化戦略により活用することにより,事前学習したバックボーンからの事前知識の維持を支援し,一次分類ヘッドを戦略的に整列させ,モデル性能を向上させる。
さらに、FCREの課題に対処するために、その豊富な知識で有名なLLM(Large Language Models)の可能性を探る。
提案手法の有効性を総合的に評価し,今後の研究に有用な知見を提供する。
関連論文リスト
- Spurious Forgetting in Continual Learning of Language Models [20.0936011355535]
大規模言語モデル(LLM)の最近の進歩は、継続学習において複雑な現象を呈している。
大規模な訓練にもかかわらず、モデルは大幅な性能低下を経験する。
本研究では,このような性能低下が,真の知識喪失よりもタスクアライメントの低下を反映していることが示唆された。
論文 参考訳(メタデータ) (2025-01-23T08:09:54Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Leveraging Hierarchical Taxonomies in Prompt-based Continual Learning [41.13568563835089]
深層学習モデルの学習において,情報の整理・接続という人間の習慣を適用することが効果的な戦略として有効であることがわかった。
本稿では,モデルがより挑戦的な知識領域に集中するように促す新たな正規化損失関数を提案する。
論文 参考訳(メタデータ) (2024-10-06T01:30:40Z) - Making Pre-trained Language Models Better Continual Few-Shot Relation
Extractors [15.417833307088637]
連射関係抽出(CFRE)は,新たな関係を連続的に学習するモデルを必要とする実践的問題である。
主な課題は、悲惨な忘れ物と過度に適合することである。
本稿では,事前学習した言語モデルの暗黙的能力を探るために,素早い学習を利用する。
論文 参考訳(メタデータ) (2024-02-24T04:32:44Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - A Survey of Knowledge-Intensive NLP with Pre-Trained Language Models [185.08295787309544]
我々は、事前訓練された言語モデルに基づく知識強化モデル(PLMKEs)の現在の進歩を要約することを目的としている。
本論では,3つの要素に関する議論に基づくPLMKEの課題について述べるとともに,NLP実践者にさらなる研究の道筋を示そうとしている。
論文 参考訳(メタデータ) (2022-02-17T17:17:43Z) - Class-Incremental Continual Learning into the eXtended DER-verse [17.90483695137098]
この研究は、我々の以前の提案であるDark Experience Replay(DER)の落とし穴を評価し、克服することを目的としています。
過去の記憶を常に書き直し、将来への期待を設定する方法に刺激されて、過去のデータに関する新しい情報を歓迎するために、リプレイ記憶を改訂する能力を備えたモデルを作りました。
これらの戦略の適用により、顕著な改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-01-03T17:14:30Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - Continual Learning for Natural Language Generation in Task-oriented
Dialog Systems [72.92029584113676]
自然言語生成(NLG)はタスク指向対話システムにおいて重要な要素である。
我々は,NLGの知識を新たなドメインや機能に段階的に拡張する"継続的学習"環境で研究する。
この目標に対する大きな課題は、破滅的な忘れことであり、継続的に訓練されたモデルは、以前に学んだ知識を忘れがちである。
論文 参考訳(メタデータ) (2020-10-02T10:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。