論文の概要: Non-Parametric Temporal Adaptation for Social Media Topic Classification
- arxiv url: http://arxiv.org/abs/2209.05706v1
- Date: Tue, 13 Sep 2022 03:31:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:39:23.824963
- Title: Non-Parametric Temporal Adaptation for Social Media Topic Classification
- Title(参考訳): ソーシャルメディアトピック分類のための非パラメトリック時間適応
- Authors: Fatemehsadat Mireshghallah, Nikolai Vogler, Junxian He, Omar Florez,
Ahmed El-Kishky, Taylor Berg-Kirkpatrick
- Abstract要約: 縦断的ハッシュタグ予測の課題を通じて時間適応について検討した。
私たちは2021年から7.13万ツイートからなる新しいベンチマークデータセットをリリースしました。
データストアのアプローチは、動的に削除されたユーザデータに特に適していることを示す。
- 参考スコア(独自算出の注目度): 41.52878699836363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User-generated social media data is constantly changing as new trends
influence online discussion, causing distribution shift in test data for social
media NLP applications. In addition, training data is often subject to change
as user data is deleted. Most current NLP systems are static and rely on fixed
training data. As a result, they are unable to adapt to temporal change -- both
test distribution shift and deleted training data -- without frequent, costly
re-training. In this paper, we study temporal adaptation through the task of
longitudinal hashtag prediction and propose a non-parametric technique as a
simple but effective solution: non-parametric classifiers use datastores which
can be updated, either to adapt to test distribution shift or training data
deletion, without re-training. We release a new benchmark dataset comprised of
7.13M Tweets from 2021, along with their hashtags, broken into consecutive
temporal buckets. We compare parametric neural hashtag classification and
hashtag generation models, which need re-training for adaptation, with a
non-parametric, training-free dense retrieval method that returns the nearest
neighbor's hashtags based on text embedding distance. In experiments on our
longitudinal Twitter dataset we find that dense nearest neighbor retrieval has
a relative performance gain of 64.12% over the best parametric baseline on test
sets that exhibit distribution shift without requiring gradient-based
re-training. Furthermore, we show that our datastore approach is particularly
well-suited to dynamically deleted user data, with negligible computational
cost and performance loss. Our novel benchmark dataset and empirical analysis
can support future inquiry into the important challenges presented by
temporality in the deployment of AI systems on real-world user data.
- Abstract(参考訳): ユーザ生成ソーシャルメディアデータは常に変化しており、新たなトレンドがオンライン議論に影響を与え、ソーシャルメディアNLPアプリケーションのテストデータの分散シフトを引き起こしている。
さらに、ユーザデータが削除されると、トレーニングデータはしばしば変更される。
現在のNLPシステムの多くは静的であり、固定トレーニングデータに依存している。
その結果、頻繁でコストのかかる再トレーニングを行わずに、テスト分散シフトと削除されたトレーニングデータの両方の一時的な変更に適応できないのです。
本稿では,非パラメトリック分類器が,テスト分布シフトやトレーニングデータ削除に適応して更新可能なデータストアを,再トレーニングすることなく使用するという,単純かつ効果的なソリューションとして,非パラメトリック手法を提案する。
我々は2021年の7.13億ツイートとハッシュタグからなる新しいベンチマークデータセットをリリースする。
適応のために再訓練を必要とするパラメトリックなニューラルハッシュタグ分類とハッシュタグ生成モデルと、テキスト埋め込み距離に基づいて近隣のハッシュタグを返却する非パラメトリックなトレーニング不要な高密度検索手法を比較した。
縦方向のtwitterデータセットを用いた実験では,勾配に基づく再トレーニングを必要とせず,分布シフトを示すテストセットにおける最良パラメトリックベースラインの相対性能が64.12%向上していることが判明した。
さらに,データストアのアプローチは,ユーザデータの動的削除に特に適しており,計算コストや性能損失が無視できることを示す。
我々の新しいベンチマークデータセットと経験分析は、現実世界のユーザーデータへのAIシステムの展開において、時間性によって生じる重要な課題に対する将来の調査を支援することができる。
関連論文リスト
- TCGU: Data-centric Graph Unlearning based on Transferable Condensation [36.670771080732486]
Transferable Condensation Graph Unlearning (TCGU)は、ゼロガンスグラフアンラーニングのためのデータ中心のソリューションである。
我々は,TGUが既存のGU手法よりもモデルユーティリティ,未学習効率,未学習効率において優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-09T02:14:40Z) - Data Selection for Transfer Unlearning [14.967546081883034]
我々は、プライバシーアプリケーションに対処しない、リラックスした未学習の定義を提唱する。
補助的な「静的」データセットから関連事例を選択するためのメカニズムを用いた新しい手法を提案する。
提案手法は,複数のデータセットにおいて,ゴールド標準の「エクササイズ・アンラーニング」よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-16T20:09:41Z) - Online Tensor Inference [0.0]
従来のオフライン学習は、各計算繰り返しにおける全てのデータの保存と利用を伴い、高次元テンソルデータには実用的ではない。
既存の低ランクテンソル法は、オンラインの方法での統計的推論能力に欠ける。
本手法では,広範囲なメモリ要求を伴わずに効率的なリアルタイムデータ処理を実現するため,グラディエント・Descent (SGD) を用いる。
論文 参考訳(メタデータ) (2023-12-28T16:37:48Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Transferable Unlearnable Examples [63.64357484690254]
第三者が許可なくデータのトレーニングを行うのを防ぐために、学べない戦略が導入された。
公開前にユーザーのデータに摂動を追加することで、公開データセットでトレーニングされたモデルを無効にすることを目指している。
本稿では、学習不可能な効果を他のトレーニング設定やデータセットに伝達することを目的とした、クラスワイズ・セパビリティ・ディミナント(CSD)に基づく新しい学習不可能な戦略を提案する。
論文 参考訳(メタデータ) (2022-10-18T19:23:52Z) - Augmented Bilinear Network for Incremental Multi-Stock Time-Series
Classification [83.23129279407271]
本稿では,有価証券のセットで事前学習したニューラルネットワークで利用可能な知識を効率的に保持する手法を提案する。
本手法では,既存の接続を固定することにより,事前学習したニューラルネットワークに符号化された事前知識を維持する。
この知識は、新しいデータを用いて最適化された一連の拡張接続によって、新しい証券に対して調整される。
論文 参考訳(メタデータ) (2022-07-23T18:54:10Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Training for the Future: A Simple Gradient Interpolation Loss to
Generalize Along Time [26.261277497201565]
いくつかの実世界のアプリケーションでは、機械学習モデルがデプロイされ、時間とともに分布が徐々に変化するデータの予測を行う。
本稿では,時間に敏感なパラメータを持つモデルから始める単純な手法を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。