論文の概要: Combating Temporal Drift in Crisis with Adapted Embeddings
- arxiv url: http://arxiv.org/abs/2104.08535v1
- Date: Sat, 17 Apr 2021 13:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:13:37.194112
- Title: Combating Temporal Drift in Crisis with Adapted Embeddings
- Title(参考訳): 適応組込みによる危機時のドリフト対策
- Authors: Kevin Stowe, Iryna Gurevych
- Abstract要約: 言語の使用は時間とともに変化し、NLPシステムの有効性に影響を与える可能性がある。
本研究は,危機時の言論変化に対応する方法を検討する。
- 参考スコア(独自算出の注目度): 58.4558720264897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language usage changes over time, and this can impact the effectiveness of
NLP systems. This work investigates methods for adapting to changing discourse
during crisis events. We explore social media data during crisis, for which
effective, time-sensitive methods are necessary. We experiment with two
separate methods to accommodate changing data: temporal pretraining, which uses
unlabeled data for the target time periods to train better language models, and
a model of embedding shift based on tools for analyzing semantic change. This
shift allows us to counteract temporal drift by normalizing incoming data based
on observed patterns of language change. Simulating scenarios in which we lack
access to incoming labeled data, we demonstrate the effectiveness of these
methods for a wide variety of crises, showing we can improve performance by up
to 8.0 F1 score for relevance classification across datasets.
- Abstract(参考訳): 言語の使用は時間とともに変化し、NLPシステムの有効性に影響を与える可能性がある。
本研究は危機時の言論変化に対応する方法を検討する。
危機時のソーシャルメディアデータについて検討し,効果的な時間に敏感な手法が求められている。
目的とする言語モデルの学習に未ラベルのデータを使用する時間事前学習と,意味的変化を解析するためのツールに基づく埋め込みシフトモデルという,2つの異なる手法を実験的に検討した。
このシフトにより、言語変化の観測パターンに基づいて、入力データを正規化することで、時間的ドリフトに対処できる。
ラベル付きデータにアクセスできないシナリオをシミュレートし、これらの手法の有効性を様々な危機に対して示し、データセット間の関連分類において最大8.0 F1スコアのパフォーマンスを向上させることを示す。
関連論文リスト
- Using a Local Surrogate Model to Interpret Temporal Shifts in Global Annual Data [5.669106489320257]
本稿では、グローバルソースの年次データにおける経年変化を説明することに焦点を当てる。
我が国では、国民の幸福指数、経済自由度、人口指標に光を当てるために、LIME(Local Interpretable Model-Agnostic Explanations)を採用している。
論文 参考訳(メタデータ) (2024-04-18T03:17:45Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - FUN with Fisher: Improving Generalization of Adapter-Based Cross-lingual Transfer with Scheduled Unfreezing [60.629222280633606]
微調整タスクアダプタのためのスケジュール付き凍結アルゴリズムについて検討する。
実験により, 完全微調整に近づき, 言語間移動性能が向上した。
本研究では,4つのデータセットに対して平均2点改善を達成できる一般的な非凍結アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:26:53Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Overcoming Conflicting Data when Updating a Neural Semantic Parser [5.471925005642665]
タスク指向のセマンティックパースモデルを更新するために、いくつかの例で所望の出力が変更されたときに、少量の新しいデータをどのように使うかを示す。
このような方法で更新を行う場合、潜在的な問題の1つは、競合するデータの存在である。
矛盾するデータの存在が更新の学習を著しく妨げていることを示し、その影響を軽減するためにいくつかの方法を模索する。
論文 参考訳(メタデータ) (2020-10-23T21:19:03Z) - Change Point Detection in Time Series Data using Autoencoders with a
Time-Invariant Representation [69.34035527763916]
変化点検出(CPD)は、時系列データにおける急激な特性変化を見つけることを目的としている。
近年のCDD法は、深層学習技術を用いる可能性を示したが、信号の自己相関統計学におけるより微妙な変化を識別する能力に欠けることが多い。
我々は、新しい損失関数を持つオートエンコーダに基づく手法を用い、使用済みオートエンコーダは、CDDに適した部分的な時間不変表現を学習する。
論文 参考訳(メタデータ) (2020-08-21T15:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。