論文の概要: Similarity Classification of Public Transit Stations
- arxiv url: http://arxiv.org/abs/2012.15267v1
- Date: Wed, 30 Dec 2020 18:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 05:54:47.589421
- Title: Similarity Classification of Public Transit Stations
- Title(参考訳): 公共交通機関の類似性分類
- Authors: Hannah Bast, Patrick Brosi and Markus N\"ather
- Abstract要約: ラベルと地理的座標を持つ2つの公共交通局識別子AとBが与えられ、AとBが同じ駅を記述するかどうかを決定する。
地理的距離と単純な文字列類似度測定に基づくいくつかのベースライン手法を検討する。
2つの駅間のトリグラムのマッチングを訓練したランダムフォレスト分類器に基づくアプローチを開発した。
- 参考スコア(独自算出の注目度): 0.5929956715430166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the following problem: given two public transit station identifiers
A and B, each with a label and a geographic coordinate, decide whether A and B
describe the same station. For example, for "St Pancras International" at
(51.5306, -0.1253) and "London St Pancras" at (51.5319, -0.1269), the answer
would be "Yes". This problem frequently arises in areas where public transit
data is used, for example in geographic information systems, schedule merging,
route planning, or map matching. We consider several baseline methods based on
geographic distance and simple string similarity measures. We also experiment
with more elaborate string similarity measures and manually created
normalization rules. Our experiments show that these baseline methods produce
good, but not fully satisfactory results. We therefore develop an approach
based on a random forest classifier which is trained on matching trigrams
between two stations, their distance, and their position on an interwoven grid.
All approaches are evaluated on extensive ground truth datasets we generated
from OpenStreetMap (OSM) data: (1) The union of Great Britain and Ireland and
(2) the union of Germany, Switzerland, and Austria. On all datasets, our
learning-based approach achieves an F1 score of over 99%, while even the most
elaborate baseline approach (based on TFIDF scores and the geographic distance)
achieves an F1 score of at most 94%, and a naive approach of using a
geographical distance threshold achieves an F1 score of only 75%. Both our
training and testing datasets are publicly available.
- Abstract(参考訳): 2つの公共交通機関の駅識別子 A と B がラベルと地理的座標を持つ場合、A と B が同一の駅を表すかどうかを決定する。
例えば "St Pancras International at (51.5306, -0.1253) や "London St Pancras at (51.5319, -0.1269) では、答えは "Yes" となる。
この問題は、地理的情報システム、スケジュールのマージ、ルート計画、マップマッチングなど、公共交通機関のデータを使用する領域で頻繁に発生する。
地理的距離と単純な文字列類似度尺度に基づくいくつかのベースライン手法を検討する。
また、より精巧な文字列類似度尺度を実験し、手動で正規化ルールを作成します。
実験の結果,これらのベースライン法は良好な結果をもたらすが,十分に満足できるものではないことがわかった。
そこで我々は,2つの駅間のトリグラムの一致,距離,相互織りグリッド上の位置を訓練したランダムフォレスト分類器に基づくアプローチを開発した。
すべてのアプローチは、OpenStreetMap (OSM)データから得られた幅広い真実のデータセットに基づいて評価される。
全てのデータセットにおいて、我々の学習に基づくアプローチはF1スコアを99%以上達成し、最も精巧なベースラインアプローチ(TFIDFスコアと地理的距離に基づく)でさえもF1スコアを94%以上達成し、地理的距離閾値を用いた単純なアプローチはF1スコアを75%しか達成していない。
トレーニングとテストの両方のデータセットが公開されています。
関連論文リスト
- UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。
研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。
本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:04:53Z) - A Large Scale Homography Benchmark [52.55694707744518]
1DSfMデータセットから10万枚の画像から約1000個の平面が観測された3D, Pi3Dの平面の大規模データセットを示す。
また,Pi3Dを利用した大規模ホモグラフィ推定ベンチマークであるHEBを提案する。
論文 参考訳(メタデータ) (2023-02-20T14:18:09Z) - MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。
MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。
提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T03:05:12Z) - Okapi: Generalising Better by Making Statistical Matches Match [7.392460712829188]
オカピは、オンライン統計マッチングに基づく頑健な半教師あり学習のためのシンプルで効率的で汎用的な方法である。
提案手法では, 最寄りのマッチング手法を用いて, 整合性損失に対するクロスドメインビューを生成する。
経験的リスクの最小化を改善するために、余分な遅延のないデータを活用することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-11-07T12:41:17Z) - A Map-matching Algorithm with Extraction of Multi-group Information for
Low-frequency Data [9.476212160807549]
本稿では,「ビッグデータ」をフル活用する新しい地図マッチング手法を考案する。
現在のマッチングプローブから空間的および時間的距離に応じて、全てのデータを4つのグループに分類する。
修正されたトップKショートパス法を用いて、楕円領域内の候補パスを探索し、融合スコアを用いて経路を推測する。
論文 参考訳(メタデータ) (2022-09-18T08:09:17Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Robust Self-Tuning Data Association for Geo-Referencing Using Lane Markings [44.4879068879732]
本稿では,データアソシエーションにおけるあいまいさを解消するための完全なパイプラインを提案する。
その中核は、測定のエントロピーに応じて探索領域に適応する堅牢な自己調整データアソシエーションである。
ドイツ・カールスルーエ市周辺の都市・農村のシナリオを実データとして評価した。
論文 参考訳(メタデータ) (2022-07-28T12:29:39Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - UnibucKernel: Geolocating Swiss-German Jodels Using Ensemble Learning [15.877673959068455]
我々は、スイスの約3万のドイツのジョデルからなるデータセットに基づいて、第2のサブタスクに焦点を当てる。
方言識別タスクは、試験サンプルの緯度と経度を正確に予測することです。
我々は、xgboostメタリーナーとさまざまな機械学習アプローチの結合パワーを用いて、タスクを二重回帰問題として構成する。
論文 参考訳(メタデータ) (2021-02-18T14:26:00Z) - Learning Independent Instance Maps for Crowd Localization [44.6430092887941]
Independent Instance Map segmentation (IIM) という,クラウドローカライゼーションのためのエンドツーエンドかつ簡単なフレームワークを提案する。
IIMセグメントは独立した接続コンポーネントに群集し、位置と群集数を得ます。
異なる密度領域のセグメンテーション品質を向上させるために,微分可能二元化モジュール(bm)を提案する。
BMはローカライズモデルに2つの利点をもたらす: 1) 異なる画像のしきい値マップを適応的に学習し、各インスタンスをより正確に検出する; 2) バイナリ予測とラベルの損失を使ってモデルを直接訓練する。
論文 参考訳(メタデータ) (2020-12-08T02:17:19Z) - Real-time Localization Using Radio Maps [59.17191114000146]
パスロスに基づく簡易かつ効果的なローカライゼーション法を提案する。
提案手法では, 受信した信号強度を, 既知の位置を持つ基地局の集合から報告する。
論文 参考訳(メタデータ) (2020-06-09T16:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。