論文の概要: Automatic Construction of a Large-Scale Corpus for Geoparsing Using Wikipedia Hyperlinks
- arxiv url: http://arxiv.org/abs/2403.16483v1
- Date: Mon, 25 Mar 2024 07:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 15:37:57.129936
- Title: Automatic Construction of a Large-Scale Corpus for Geoparsing Using Wikipedia Hyperlinks
- Title(参考訳): Wikipediaハイパーリンクを用いた大規模ジオパーシングコーパスの自動構築
- Authors: Keyaki Ohno, Hirotaka Kameko, Keisuke Shirai, Taichi Nishimura, Shinsuke Mori,
- Abstract要約: 本稿では,ウィキペディアの記事からジオパーシングのための大規模コーパスを構築するための新しい手法であるウィキペディアハイパーリンクベースの位置情報リンク(WHLL)を提案する。
WHLLコーパスは1.3Mの記事で構成され、それぞれ7.8のユニークな位置表現を含んでいる。
位置表現の45.6%は曖昧であり、同じ表記の複数の位置を指す。
- 参考スコア(独自算出の注目度): 3.7723696854530337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geoparsing is the task of estimating the latitude and longitude (coordinates) of location expressions in texts. Geoparsing must deal with the ambiguity of the expressions that indicate multiple locations with the same notation. For evaluating geoparsing systems, several corpora have been proposed in previous work. However, these corpora are small-scale and suffer from the coverage of location expressions on general domains. In this paper, we propose Wikipedia Hyperlink-based Location Linking (WHLL), a novel method to construct a large-scale corpus for geoparsing from Wikipedia articles. WHLL leverages hyperlinks in Wikipedia to annotate multiple location expressions with coordinates. With this method, we constructed the WHLL corpus, a new large-scale corpus for geoparsing. The WHLL corpus consists of 1.3M articles, each containing about 7.8 unique location expressions. 45.6% of location expressions are ambiguous and refer to more than one location with the same notation. In each article, location expressions of the article title and those hyperlinks to other articles are assigned with coordinates. By utilizing hyperlinks, we can accurately assign location expressions with coordinates even with ambiguous location expressions in the texts. Experimental results show that there remains room for improvement by disambiguating location expressions.
- Abstract(参考訳): ジオパーシング(Geoparsing)は、テキスト中の位置表現の緯度と経度(座標)を推定するタスクである。
ジオパーシングは、同じ表記の複数の位置を示す表現のあいまいさに対処しなければならない。
ジオパーシングシステムを評価するために、以前の研究でいくつかのコーパスが提案されている。
しかし、これらのコーパスは小規模であり、一般ドメインにおける位置表現のカバレッジに悩まされている。
本稿では,ウィキペディアの記事からジオパーシングするための大規模コーパスを構築するための新しい手法であるウィキペディアハイパーリンクベースの位置情報リンク(WHLL)を提案する。
WHLLはウィキペディアのハイパーリンクを利用して、座標で複数の位置表現を注釈付けする。
この手法により, ジオパーシングのための大規模コーパスであるWHLLコーパスを構築した。
WHLLコーパスは1.3Mの記事で構成され、それぞれ7.8のユニークな位置表現を含んでいる。
位置表現の45.6%は曖昧であり、同じ表記の複数の位置を指す。
各記事において、記事タイトルと他の記事へのハイパーリンクの位置表現に座標が割り当てられる。
ハイパーリンクを利用することで、テキスト中の不明瞭な位置表現であっても、位置表現を座標で正確に割り当てることができる。
実験結果から, 位置表現を曖昧にすることで, 改善の余地があることが示唆された。
関連論文リスト
- Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - Text2Loc: 3D Point Cloud Localization from Natural Language [49.01851743372889]
我々は,いくつかの言語学的記述に基づく3次元点群局所化の問題に取り組む。
我々は,ポイントとテキスト間の意味的関係を完全に解釈する新しいニューラルネットワークText2Locを導入する。
Text2Locは、KITTI360Poseデータセットの最先端技術に対して最大2倍のローカライゼーション精度を向上する。
論文 参考訳(メタデータ) (2023-11-27T16:23:01Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - HeGeL: A Novel Dataset for Geo-Location from Hebrew Text [5.109028790494419]
本稿では,Hebrew Geo-Location (HeGeL) コーパスについて述べる。
我々はイスラエルの3都市で5,649件のヘブライ語地名をクラウドソーシングした。
論文 参考訳(メタデータ) (2023-07-02T08:09:10Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Fine-grained Geolocation Prediction of Tweets with Human Machine
Collaboration [3.147379819740595]
クロールツイートの投稿に位置情報タグが付くのは、$1%以下だ。
本研究では、何百万ものTwitter投稿とエンドユーザードメインの専門知識を利用して、ディープニューラルネットワークモデルを構築します。
複数のニューラルアーキテクチャ実験と協調的なヒューマンマシンワークフロー設計により、位置検出に関する現在進行中の研究は、有望な結果を示している。
論文 参考訳(メタデータ) (2021-06-25T03:51:02Z) - Geosocial Location Classification: Associating Type to Places Based on
Geotagged Social-Media Posts [22.313111311130662]
位置への関連付けは、地図を豊かにするために使用することができ、地理空間的応用の多さに役立てることができる。
本研究では, 建物などの立地形態をソーシャルメディアの投稿に基づいて把握し, 位置分類の課題について検討する。
論文 参考訳(メタデータ) (2020-02-05T16:09:52Z) - From Topic Networks to Distributed Cognitive Maps: Zipfian Topic
Universes in the Area of Volunteered Geographic Information [59.0235296929395]
本研究では,テキストの話題レベルに関する地理情報のエンコードとネットワーク化について検討する。
本研究は,オンラインコミュニケーションにおいて地理的な場所が位置するテーマ宇宙のZipfian組織を示す。
互いに近いかどうかに関わらず、場所はトピックの宇宙における類似の作業にまたがる隣の場所にある。
論文 参考訳(メタデータ) (2020-02-04T18:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。