論文の概要: Identifying Origins of Place Names via Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.01030v2
- Date: Wed, 03 Sep 2025 06:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.508248
- Title: Identifying Origins of Place Names via Retrieval Augmented Generation
- Title(参考訳): 検索拡張生成による地名の起源の同定
- Authors: Alexis Horde-Vo, Matt Duckham, Estrid He, Rafe Benli,
- Abstract要約: 本章では,広い知識基盤であるDBpedia上での地名の検索を目的とした検索拡張生成パイプラインについて紹介する。
提案手法では,まず,クエリに関連する知識を含むサブグラフを抽出し,抽出したサブグラフをランク付けして,微調整されたLMモデルを用いてクエリに対する最終回答を生成する。
本研究は,地名の自動検索に直面する課題,特にテキストに含まれる空間情報を識別要因として過小評価する言語モデルの傾向を浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.569978892646475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Who is the "Batman" behind "Batman Street" in Melbourne? Understanding the historical, cultural, and societal narratives behind place names can reveal the rich context that has shaped a community. Although place names serve as essential spatial references in gazetteers, they often lack information about place name origins. Enriching these place names in today's gazetteers is a time-consuming, manual process that requires extensive exploration of a vast archive of documents and text sources. Recent advances in natural language processing and language models (LMs) hold the promise of significant automation of identifying place name origins due to their powerful capability to exploit the semantics of the stored documents. This chapter presents a retrieval augmented generation pipeline designed to search for place name origins over a broad knowledge base, DBpedia. Given a spatial query, our approach first extracts sub-graphs that may contain knowledge relevant to the query; then ranks the extracted sub-graphs to generate the final answer to the query using fine-tuned LM-based models (i.e., ColBERTv2 and Llama2). Our results highlight the key challenges facing automated retrieval of place name origins, especially the tendency of language models to under-use the spatial information contained in texts as a discriminating factor. Our approach also frames the wider implications for geographic information retrieval using retrieval augmented generation.
- Abstract(参考訳): メルボルンの「バットマン通り」の背後にある「バットマン」は誰ですか。
地名の背後にある歴史的、文化的、社会的物語を理解することは、共同体を形成した豊かな文脈を明らかにすることができる。
地名はガゼッタに欠かせない空間的参照として機能するが、地名の由来に関する情報は乏しいことが多い。
今日のガゼッタでこれらの地名を豊かにすることは、膨大な文書やテキストソースを広範囲に調査する必要がある、時間を要する手作業である。
自然言語処理と言語モデル(LM)の最近の進歩は、格納された文書のセマンティクスを活用できる強力な能力のため、地名の由来を特定することの大幅な自動化を約束している。
本章では,広い知識基盤であるDBpedia上での地名の検索を目的とした検索拡張生成パイプラインについて紹介する。
提案手法では,まずクエリに関する知識を含む部分グラフを抽出し,抽出したサブグラフをランク付けし,細調整されたLMモデル(ColBERTv2 と Llama2)を用いてクエリに対する最終回答を生成する。
本研究は,地名の自動検索に直面する課題,特にテキストに含まれる空間情報を識別要因として過小評価する言語モデルの傾向を浮き彫りにした。
提案手法は,検索拡張生成を用いた地理情報検索において,より広い意味を持つ。
関連論文リスト
- Digital gazetteers: review and prospects for place name knowledge bases [0.5120567378386615]
我々は、データソース、コンポーネント、ソフトウェアおよびデータ管理技術、データ品質およびボランティアデータ、および、同じ現実世界の場所を参照するソースのマッチング方法についてレビューする。
我々は、名前の付いた場所のより豊かな表現、場所のアイデンティティと位置の時間的進化、データ統合のためのより効果的な方法の開発について、今後の研究の必要性を強調した。
論文 参考訳(メタデータ) (2025-07-11T12:56:17Z) - Automatic Search of Multiword Place Names on Historical Maps [5.932055389589979]
本稿では,過去の地図上で与えられた複数単語の地名を検索する効率的なクエリ手法を提案する。
過去の地図上での単語認識手法を用いて,最小分散木を構築することにより,単一単語のテキストラベルを潜在的多語句にリンクする。
論文 参考訳(メタデータ) (2024-10-21T02:11:48Z) - Towards a Brazilian History Knowledge Graph [50.26735825937335]
ブラジル歴史辞典(DHBB)とウィキペディア/ウィキデータに基づくブラジルの歴史に関する知識グラフを構築した。
DHBBに記述されている多くの用語/エンティティがWikidataに対応する概念(またはQ項目)を持っていないことを示す。
論文 参考訳(メタデータ) (2024-03-28T22:05:32Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - The mapKurator System: A Complete Pipeline for Extracting and Linking
Text from Historical Maps [7.209761597734092]
mapKuratorは、マシンラーニングモデルと包括的なデータ処理パイプラインを統合するエンドツーエンドシステムである。
我々はmapKuratorシステムをデプロイし、David Rumsey Historical Mapコレクションに6万以上の地図と1億以上のテキスト/場所名の処理を可能にしました。
論文 参考訳(メタデータ) (2023-06-29T16:05:40Z) - Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。
ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。
本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:13:40Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Information Extraction based on Named Entity for Tourism Corpus [0.9137554315375919]
本稿では,検索エンジンから返される全文から特定の情報を抽出する手法を提案する。
このアプローチは、他のドメインで同じタスクに使用できる。
論文 参考訳(メタデータ) (2020-01-03T17:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。