論文の概要: Geolocation Predicting of Tweets Using BERT-Based Models
- arxiv url: http://arxiv.org/abs/2303.07865v3
- Date: Fri, 19 Jul 2024 08:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 00:35:58.457638
- Title: Geolocation Predicting of Tweets Using BERT-Based Models
- Title(参考訳): BERTモデルを用いたツイートの位置推定
- Authors: Kateryna Lutsai, Christoph H. Lampert,
- Abstract要約: 本研究は、ツイート/ユーザ位置情報予測タスクを解決することを目的としている。
提案手法は、自然言語処理のためのニューラルネットワークを実装し、位置を推定する。
提案されたモデルの範囲は、Twitterデータセットで微調整されている。
- 参考スコア(独自算出の注目度): 17.55660062746406
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This research is aimed to solve the tweet/user geolocation prediction task and provide a flexible methodology for the geotagging of textual big data. The suggested approach implements neural networks for natural language processing (NLP) to estimate the location as coordinate pairs (longitude, latitude) and two-dimensional Gaussian Mixture Models (GMMs). The scope of proposed models has been finetuned on a Twitter dataset using pretrained Bidirectional Encoder Representations from Transformers (BERT) as base models. Performance metrics show a median error of fewer than 30 km on a worldwide-level, and fewer than 15 km on the US-level datasets for the models trained and evaluated on text features of tweets' content and metadata context. Our source code and data are available at https://github.com/K4TEL/geo-twitter.git
- Abstract(参考訳): 本研究の目的は、ツイート/ユーザ位置情報予測タスクの解決と、テキストビッグデータのジオタグ化のための柔軟な方法論を提供することである。
提案手法はニューラルネットワークを用いて自然言語処理(NLP)を行い,その位置を座標対(経度,緯度)と2次元ガウス混合モデル(GMM)として推定する。
提案モデルの範囲は、トレーニング済みの双方向エンコーダ表現(BERT)をベースモデルとして、Twitterデータセット上で微調整されている。
パフォーマンスメトリクスは、世界中のレベルで30km未満の中央値エラーを示し、ツイートの内容とメタデータコンテキストのテキスト特徴に基づいてトレーニングされ評価されたモデルに対する米国レベルのデータセットでは15km未満である。
ソースコードとデータはhttps://github.com/K4TEL/geo-twitter.gitで公開されています。
関連論文リスト
- Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - Context-Based Tweet Engagement Prediction [0.0]
この論文は、ツイートのエンゲージメントの可能性を予測するために、コンテキスト単独がいかにうまく使われるかを調査する。
私たちはTU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:36:57Z) - TopoBERT: Plug and Play Toponym Recognition Module Harnessing Fine-tuned
BERT [11.446721140340575]
TopoBERTは,一次元畳み込みニューラルネットワーク(CNN1D)と変換器による双方向表現(BERT)に基づくトポニム認識モジュールである。
TopoBERTは、他の5つのベースラインモデルと比較して最先端のパフォーマンスを達成し、追加のトレーニングなしで様々なトポニム認識タスクに適用することができる。
論文 参考訳(メタデータ) (2023-01-31T13:44:34Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - UnibucKernel: Geolocating Swiss-German Jodels Using Ensemble Learning [15.877673959068455]
我々は、スイスの約3万のドイツのジョデルからなるデータセットに基づいて、第2のサブタスクに焦点を当てる。
方言識別タスクは、試験サンプルの緯度と経度を正確に予測することです。
我々は、xgboostメタリーナーとさまざまな機械学習アプローチの結合パワーを用いて、タスクを二重回帰問題として構成する。
論文 参考訳(メタデータ) (2021-02-18T14:26:00Z) - Combining Deep Learning and String Kernels for the Localization of Swiss
German Tweets [28.497747521078647]
2番目のサブタスクは、約3万のスイスのドイツのJodelからなるデータセットをターゲットにしています。
我々は、このタスクを2重回帰問題とみなし、緯度と経度の両方を予測するために、さまざまな機械学習アプローチを採用している。
実験結果から,文字列カーネルに基づく手作りモデルの方が,ディープラーニングのアプローチよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-10-07T19:16:45Z) - Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement [54.29252286561449]
グラフPCNNと呼ばれる2段階のグラフベースおよびモデルに依存しないフレームワークを提案する。
第1段階では、粗局化結果を得るために熱マップ回帰ネットワークを適用し、ガイドポイントと呼ばれる一連の提案キーポイントをサンプリングする。
第2段階では、各案内点について、ローカライゼーションにより異なる視覚特徴を抽出する。
ガイドされた点間の関係は、より正確なローカライゼーション結果を得るためにグラフポーズ精製モジュールによって探索される。
論文 参考訳(メタデータ) (2020-07-21T04:59:15Z) - $n$-Reference Transfer Learning for Saliency Prediction [73.17061116358036]
本稿では,サリエンシ予測のための数発のトランスファー学習パラダイムを提案する。
提案するフレームワークは勾配ベースでモデルに依存しない。
その結果,提案フレームワークは大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2020-07-09T23:20:44Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。