論文の概要: WIKITIDE: A Wikipedia-Based Timestamped Definition Pairs Dataset
- arxiv url: http://arxiv.org/abs/2308.03582v2
- Date: Fri, 18 Aug 2023 12:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 22:26:16.184393
- Title: WIKITIDE: A Wikipedia-Based Timestamped Definition Pairs Dataset
- Title(参考訳): WIKITIDE:Wikipediaベースのタイムスタンプ定義ペアデータセット
- Authors: Hsuvas Borkakoty and Luis Espinosa-Anke
- Abstract要約: ウィキタイデはウィキペディアから抽出したタイムスタンプ定義のペアから抽出したデータセットである。
我々の結果は、WikiTiDeのシードバージョンをブートストラップすると、より微調整されたモデルが得られることを示唆している。
- 参考スコア(独自算出の注目度): 12.707584479922833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental challenge in the current NLP context, dominated by language
models, comes from the inflexibility of current architectures to 'learn' new
information. While model-centric solutions like continual learning or
parameter-efficient fine tuning are available, the question still remains of
how to reliably identify changes in language or in the world. In this paper, we
propose WikiTiDe, a dataset derived from pairs of timestamped definitions
extracted from Wikipedia. We argue that such resource can be helpful for
accelerating diachronic NLP, specifically, for training models able to scan
knowledge resources for core updates concerning a concept, an event, or a named
entity. Our proposed end-to-end method is fully automatic, and leverages a
bootstrapping algorithm for gradually creating a high-quality dataset. Our
results suggest that bootstrapping the seed version of WikiTiDe leads to better
fine-tuned models. We also leverage fine-tuned models in a number of downstream
tasks, showing promising results with respect to competitive baselines.
- Abstract(参考訳): 言語モデルに支配される現在のNLPコンテキストにおける根本的な課題は、現在のアーキテクチャの柔軟性から、新しい情報を'学習'することにある。
連続学習やパラメータ効率のよい微調整のようなモデル中心のソリューションが利用可能であるが、言語や世界の変化を確実に識別する方法はまだ疑問である。
本稿では,ウィキペディアから抽出したタイムスタンプ定義のペアから抽出したデータセットであるWikiTiDeを提案する。
このようなリソースは、特に、概念、イベント、または名前付きエンティティに関するコア更新のための知識リソースをスキャンできるトレーニングモデルにおいて、ダイアクロニックNLPの加速に役立ちます。
提案手法は完全自動であり,ブートストラップアルゴリズムを用いて高品質なデータセットを徐々に作成する。
我々の結果は、WikiTiDeのシードバージョンをブートストラップすると、より微調整されたモデルが得られることを示唆している。
また、多くの下流タスクで微調整されたモデルを活用し、競合するベースラインに関して有望な結果を示す。
関連論文リスト
- Novel-WD: Exploring acquisition of Novel World Knowledge in LLMs Using Prefix-Tuning [2.8972337324168014]
本研究では, PLMが学習し, 学習前コーパスで発生しない新たな世界知識事実を記憶する方法について検討する。
我々はまず,最近のウィキデータ更新から抽出された新しい事実を含む文からなる新しいデータセットであるNove-WDを提案する。
このデータセットをコミュニティに無償で提供し、その後、最新情報を備えた類似データセットの新バージョンを構築する手順をリリースします。
論文 参考訳(メタデータ) (2024-08-30T07:54:50Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Wikiformer: Pre-training with Structured Information of Wikipedia for
Ad-hoc Retrieval [21.262531222066208]
本稿では,ウィキペディアの構造的知識に基づいて,情報検索タスクに適した4つの事前学習目標を考案する。
既存の事前学習手法と比較して,本手法はトレーニングコーパスにおける意味的知識をよりよく捉えることができる。
生物医学・法学領域における実験結果から,本手法は垂直領域において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-12-17T09:31:47Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - WikiCheck: An end-to-end open source Automatic Fact-Checking API based
on Wikipedia [1.14219428942199]
我々は、自動Fact-checkingのためのState-of-the-Artデータセットとソリューションについてレビューする。
モデルの性能と一般化を改善するデータフィルタリング手法を提案する。
本稿では,ウィキペディアの知識ベースに基づいたファクトチェックシステムであるtextitWikiCheck APIを提案する。
論文 参考訳(メタデータ) (2021-09-02T10:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。