論文の概要: Predicting the Geolocation of Tweets Using transformer models on Customized Data
- arxiv url: http://arxiv.org/abs/2303.07865v6
- Date: Sat, 02 Nov 2024 16:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:45:15.721942
- Title: Predicting the Geolocation of Tweets Using transformer models on Customized Data
- Title(参考訳): カスタマイズデータに基づくトランスフォーマーモデルによるツイートの位置推定
- Authors: Kateryna Lutsai, Christoph H. Lampert,
- Abstract要約: 本研究は、ツイート/ユーザ位置情報予測タスクを解決することを目的としている。
提案手法は、自然言語処理のためのニューラルネットワークを実装し、位置を推定する。
提案されたモデルの範囲は、Twitterデータセットで微調整されている。
- 参考スコア(独自算出の注目度): 17.55660062746406
- License:
- Abstract: This research is aimed to solve the tweet/user geolocation prediction task and provide a flexible methodology for the geotagging of textual big data. The suggested approach implements neural networks for natural language processing (NLP) to estimate the location as coordinate pairs (longitude, latitude) and two-dimensional Gaussian Mixture Models (GMMs). The scope of proposed models has been finetuned on a Twitter dataset using pretrained Bidirectional Encoder Representations from Transformers (BERT) as base models. Performance metrics show a median error of fewer than 30 km on a worldwide-level, and fewer than 15 km on the US-level datasets for the models trained and evaluated on text features of tweets' content and metadata context. Our source code and data are available at https://github.com/K4TEL/geo-twitter.git
- Abstract(参考訳): 本研究の目的は、ツイート/ユーザ位置情報予測タスクの解決と、テキストビッグデータのジオタグ化のための柔軟な方法論を提供することである。
提案手法はニューラルネットワークを用いて自然言語処理(NLP)を行い,その位置を座標対(経度,緯度)と2次元ガウス混合モデル(GMM)として推定する。
提案モデルの範囲は、トレーニング済みの双方向エンコーダ表現(BERT)をベースモデルとして、Twitterデータセット上で微調整されている。
パフォーマンスメトリクスは、世界中のレベルで30km未満の中央値エラーを示し、ツイートの内容とメタデータコンテキストのテキスト特徴に基づいてトレーニングされ評価されたモデルに対する米国レベルのデータセットでは15km未満である。
ソースコードとデータはhttps://github.com/K4TEL/geo-twitter.gitで公開されています。
関連論文リスト
- Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Context-Based Tweet Engagement Prediction [0.0]
この論文は、ツイートのエンゲージメントの可能性を予測するために、コンテキスト単独がいかにうまく使われるかを調査する。
私たちはTU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:36:57Z) - Heterogenous Ensemble of Models for Molecular Property Prediction [55.91865861896012]
分子の異なるモーダル性を考える手法を提案する。
これらのモデルをHuberRegressorでアンサンブルします。
これにより、OGB Large-Scale Challenge (2022)の2textsuperscriptndエディションの勝利のソリューションが得られる。
論文 参考訳(メタデータ) (2022-11-20T17:25:26Z) - Hyperbolic Vision Transformers: Combining Improvements in Metric
Learning [116.13290702262248]
計量学習のための新しい双曲型モデルを提案する。
本手法のコアとなるのは、双曲空間にマッピングされた出力埋め込みを備えた視覚変換器である。
4つのデータセットに6つの異なる定式化を施したモデルの評価を行った。
論文 参考訳(メタデータ) (2022-03-21T09:48:23Z) - Regressing Location on Text for Probabilistic Geocoding [0.0]
テキストデータのジオコーディングのためのエンドツーエンド確率モデルを提案する。
ELECTRo-mapと呼ばれるモデルベースのソリューションと,イベントデータのテキストをジオコーディングする最先端のオープンソースシステムを比較した。
論文 参考訳(メタデータ) (2021-06-30T20:04:55Z) - UnibucKernel: Geolocating Swiss-German Jodels Using Ensemble Learning [15.877673959068455]
我々は、スイスの約3万のドイツのジョデルからなるデータセットに基づいて、第2のサブタスクに焦点を当てる。
方言識別タスクは、試験サンプルの緯度と経度を正確に予測することです。
我々は、xgboostメタリーナーとさまざまな機械学習アプローチの結合パワーを用いて、タスクを二重回帰問題として構成する。
論文 参考訳(メタデータ) (2021-02-18T14:26:00Z) - Combining Deep Learning and String Kernels for the Localization of Swiss
German Tweets [28.497747521078647]
2番目のサブタスクは、約3万のスイスのドイツのJodelからなるデータセットをターゲットにしています。
我々は、このタスクを2重回帰問題とみなし、緯度と経度の両方を予測するために、さまざまな機械学習アプローチを採用している。
実験結果から,文字列カーネルに基づく手作りモデルの方が,ディープラーニングのアプローチよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-10-07T19:16:45Z) - $n$-Reference Transfer Learning for Saliency Prediction [73.17061116358036]
本稿では,サリエンシ予測のための数発のトランスファー学習パラダイムを提案する。
提案するフレームワークは勾配ベースでモデルに依存しない。
その結果,提案フレームワークは大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2020-07-09T23:20:44Z) - Localized convolutional neural networks for geospatial wind forecasting [0.0]
畳み込みニューラルネットワーク(CNN)は多くの空間データに関して正の特性を有する。
本研究では,CNNがグローバルな特徴に加えて,局所的な特徴を学習することのできる局所畳み込みニューラルネットワークを提案する。
どのような畳み込みレイヤにも追加可能で、簡単にエンドツーエンドのトレーニングが可能で、最小限の複雑さを導入でき、CNNは必要な範囲でそのメリットの大部分を維持できる。
論文 参考訳(メタデータ) (2020-05-12T17:14:49Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。