論文の概要: Tatarstan Toponyms: A Bilingual Dataset and Hybrid RAG System for Geospatial Question Answering
- arxiv url: http://arxiv.org/abs/2605.05962v1
- Date: Thu, 07 May 2026 10:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.687046
- Title: Tatarstan Toponyms: A Bilingual Dataset and Hybrid RAG System for Geospatial Question Answering
- Title(参考訳): Tatarstan Toponyms:地理空間質問応答のためのバイリンガルデータセットとハイブリッドRAGシステム
- Authors: Mullosharaf K. Arabov,
- Abstract要約: 本稿では,多言語トポノミックデータを用いた空間的自動解答について述べる。
タタールスタン共和国の地名のバイリンガルデータセットが導入された。
約39,000の質問文回答三重項からなる質問回答コーパスを構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses automatic geospatial question answering over multilingual toponymic data. An original bilingual dataset of toponyms of the Republic of Tatarstan is introduced, comprising 9,688 structured records with linguistic, etymological, administrative, and coordinate information (93.1% georeferenced). Based on this dataset, a question-answering corpus of approximately 39,000 question-context-answer triples is constructed with guaranteed answer localization. A hybrid retriever integrates dense semantic indexing (multilingual-e5-large) with geospatial filtering via KD-trees and haversine distance. On 500 test queries, the hybrid search achieves Recall@1=0.988, Recall@5=1.000, and MRR=0.994, significantly outperforming BM25 and purely spatial methods. Among tested reader architectures (RuBERT, XLM-RoBERTa-large, T5-RUS), XLM-RoBERTa-large attains the best quality: EM=0.992, F1=0.994. On raw outputs, RuBERT models fail on coordinate questions (F1=0) while XLM-RoBERTa-large reaches F1=0.984; however, simple post-processing eliminates numerical gaps and restores RuBERT accuracy to 100%. This discrepancy stems from tokenization differences and pre-training corpora composition. All resources (dataset, QA corpus, model weights, web demo) are openly published on Hugging Face. Results apply to geospatial QA services, geocoding, and digital humanities in multilingual regions.
- Abstract(参考訳): 本稿では,多言語トポノミックデータを用いた空間的自動解答について述べる。
元々のタタールスタン共和国の地名のバイリンガルデータセットは、言語、語源、行政、座標情報(93.1%地理参照)を含む9,688の構造化された記録からなる。
このデータセットに基づいて,約39,000の質問文回答三重項からなる質問回答コーパスを構築し,回答の局所化を保証した。
ハイブリッドレトリバーは、高密度なセマンティックインデックス (multilingual-e5-large) と、KD-treesおよびハスシン距離を介して地理空間フィルタリングを統合する。
500のテストクエリで、ハイブリッド検索はRecall@1=0.988、Recall@5=1.000、MRR=0.994を達成し、BM25と純粋に空間的手法を著しく上回る。
テスト対象の読者アーキテクチャ(RuBERT、XLM-RoBERTa-large、T5-RUS)のうち、XLM-RoBERTa-largeは、EM=0.992、F1=0.994である。
生の出力では、RuBERTモデルは座標問題(F1=0)で失敗し、XLM-RoBERTa-largeはF1=0.984に達するが、単純な後処理は数値的なギャップを排除し、RuBERTの精度を100%に復元する。
この相違は、トークン化の違いと事前学習コーパス組成に起因している。
すべてのリソース(データセット、QAコーパス、モデルウェイト、Webデモ)は、Hugging Faceで公開されています。
その結果、多言語領域における地理空間的QAサービス、ジオコーディング、デジタルヒューマニティに当てはまる。
関連論文リスト
- Georeferencing complex relative locality descriptions with large language models [1.9911463513783276]
本稿では,局所性記述を自動的にジオレファレンスする大規模言語モデルの可能性について検討する。
最初に有効なプロンプトパターンを特定し,生物多様性データセット上での量子化低ランク適応(QLoRA)を用いてLLMを微調整した。
われわれのアプローチは、データセットを平均して、半径10km以内のレコードの65%を一定のトレーニングデータとして、既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-16T09:27:02Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval [0.8478469524684645]
WebFAQ(英語: WebFAQ)は、FAQスタイルのスキーマ.orgアノテーションから派生した、オープンドメインの質問応答データセットの大規模なコレクションである。
データ収集は、75言語にまたがる9600万の自然質問回答(QA)ペアで構成されており、うち4700万(49%)が非英語のサンプルである。
WebFAQは、合計1120万QAペアのモノリンガル検索ベンチマーク20の基盤となっている。
論文 参考訳(メタデータ) (2025-02-28T10:46:52Z) - Spatial-RAG: Spatial Retrieval Augmented Generation for Real-World Geospatial Reasoning Questions [5.053463027769152]
空間RAG(Spatial-RAG)は、地理空間質問応答用に設計された検索型生成フレームワークである。
構造化空間データベースと大きな言語モデル(LLM)をハイブリッド空間レトリバーを介して統合する。
応答過程を空間的および意味的関連性に対する多目的最適化として定式化する。
論文 参考訳(メタデータ) (2025-02-04T01:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。