論文の概要: Geolocation Predicting of Tweets Using BERT-Based Models
- arxiv url: http://arxiv.org/abs/2303.07865v1
- Date: Tue, 14 Mar 2023 12:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:02:14.395173
- Title: Geolocation Predicting of Tweets Using BERT-Based Models
- Title(参考訳): BERTモデルを用いたツイートの位置推定
- Authors: Kateryna Lutsai and Christoph H. Lampert
- Abstract要約: 本研究の目的は、ツイート/ユーザ位置情報予測タスクの解決と、テキストビッグデータのジオタグ化のための柔軟な方法論を提供することである。
提案手法は,自然言語処理のためのニューラルネットワークを実装し,座標対(経度,緯度)と2次元ガウス混合モデル(GMM)として位置を推定する。
提案するモデルの範囲は、トレーニング済みの双方向表現(BERT)をベースモデルとして、Twitterデータセット上で微調整されている。
- 参考スコア(独自算出の注目度): 27.806085423595334
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This research is aimed to solve the tweet/user geolocation prediction task
and provide a flexible methodology for the geotagging of textual big data. The
suggested approach implements neural networks for natural language processing
(NLP) to estimate the location as coordinate pairs (longitude, latitude) and
two-dimensional Gaussian Mixture Models (GMMs). The scope of proposed models
has been finetuned on a Twitter dataset using pretrained Bidirectional Encoder
Representations from Transformers (BERT) as base models. Performance metrics
show a median error of fewer than 30 km on a worldwide-level, and fewer than 15
km on the US-level datasets for the models trained and evaluated on text
features of tweets' content and metadata context.
- Abstract(参考訳): 本研究の目的は、ツイート/ユーザ位置情報予測タスクの解決と、テキストビッグデータのジオタグ化のための柔軟な方法論を提供することである。
提案手法はニューラルネットワークを用いて自然言語処理(NLP)を行い,その位置を座標対(経度,緯度)と2次元ガウス混合モデル(GMM)として推定する。
提案モデルの範囲は、トレーニング済みの双方向エンコーダ表現(BERT)をベースモデルとして、Twitterデータセット上で微調整されている。
パフォーマンスメトリクスは、世界中のレベルで30km未満の中央値エラーを示し、ツイートの内容とメタデータコンテキストのテキスト特徴に基づいてトレーニングされ評価されたモデルに対する米国レベルのデータセットでは15km未満である。
関連論文リスト
- Data Selection for Language Models via Importance Resampling [107.98702080623427]
我々は、このデータ選択問題を、望まれるターゲット分布に合わせるために、大きな未ラベルデータセットのサブセットを選択するものとして定式化する。
本稿では,特徴量削減における重み付けを推定する効率的かつスケーラブルなアルゴリズムであるData Selection with Importance Resampling(DSIR)を提案する。
汎用ドメインモデルをトレーニングする場合(ターゲットはWikipedia+書籍)、DSIRはGLUEベンチマークでランダム選択とフィルタリングベースラインを2-2.5%改善する。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - TopoBERT: Plug and Play Toponym Recognition Module Harnessing Fine-tuned
BERT [11.446721140340575]
TopoBERTは,一次元畳み込みニューラルネットワーク(CNN1D)と変換器による双方向表現(BERT)に基づくトポニム認識モジュールである。
TopoBERTは、他の5つのベースラインモデルと比較して最先端のパフォーマンスを達成し、追加のトレーニングなしで様々なトポニム認識タスクに適用することができる。
論文 参考訳(メタデータ) (2023-01-31T13:44:34Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - UnibucKernel: Geolocating Swiss-German Jodels Using Ensemble Learning [15.877673959068455]
我々は、スイスの約3万のドイツのジョデルからなるデータセットに基づいて、第2のサブタスクに焦点を当てる。
方言識別タスクは、試験サンプルの緯度と経度を正確に予測することです。
我々は、xgboostメタリーナーとさまざまな機械学習アプローチの結合パワーを用いて、タスクを二重回帰問題として構成する。
論文 参考訳(メタデータ) (2021-02-18T14:26:00Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Few-shot Learning for Spatial Regression [31.022722103424684]
空間回帰のための数ショット学習法を提案する。
本モデルは,地域によって異なる属性の空間的データセットを用いて訓練されている。
本研究では,提案手法が既存のメタ学習手法よりも優れた予測性能を実現することを示す。
論文 参考訳(メタデータ) (2020-10-09T04:05:01Z) - Combining Deep Learning and String Kernels for the Localization of Swiss
German Tweets [28.497747521078647]
2番目のサブタスクは、約3万のスイスのドイツのJodelからなるデータセットをターゲットにしています。
我々は、このタスクを2重回帰問題とみなし、緯度と経度の両方を予測するために、さまざまな機械学習アプローチを採用している。
実験結果から,文字列カーネルに基づく手作りモデルの方が,ディープラーニングのアプローチよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-10-07T19:16:45Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Modeling extra-deep electromagnetic logs using a deep neural network [0.415623340386296]
現代のジオステアリングは、ディープ電磁(EM)測定のリアルタイム解釈に大きく依存している。
本稿では,ディープニューラルネットワーク(DNN)モデルの構築手法を提案する。
モデルは、比抵抗値の異なる最大7層からなる1D層環境で訓練される。
論文 参考訳(メタデータ) (2020-05-18T17:45:46Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。