論文の概要: ALIGN: A Vision-Language Framework for High-Accuracy Accident Location Inference through Geo-Spatial Neural Reasoning
- arxiv url: http://arxiv.org/abs/2511.06316v1
- Date: Sun, 09 Nov 2025 10:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.883937
- Title: ALIGN: A Vision-Language Framework for High-Accuracy Accident Location Inference through Geo-Spatial Neural Reasoning
- Title(参考訳): 地理空間ニューラル推論による高精度事故位置推定のための視覚言語フレームワークALIGN
- Authors: MD Thamed Bin Zaman Chowdhury, Moazzem Hossain,
- Abstract要約: 低所得国や中所得国の多くは、正確な場所固有のクラッシュデータ不足に直面している。
既存のテキストベースのジオコーディングツールは、多言語および非構造化のニュース環境では性能が良くない。
本研究では,事故座標を推定するための空間推論をエミュレートする視覚言語フレームワークであるALIGNを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable geospatial information on road accidents is vital for safety analysis and infrastructure planning, yet most low- and middle-income countries continue to face a critical shortage of accurate, location-specific crash data. Existing text-based geocoding tools perform poorly in multilingual and unstructured news environments, where incomplete place descriptions and mixed Bangla-English scripts obscure spatial context. To address these limitations, this study introduces ALIGN (Accident Location Inference through Geo-Spatial Neural Reasoning)- a vision-language framework that emulates human spatial reasoning to infer accident coordinates directly from textual and map-based cues. ALIGN integrates large language and vision-language models within a multi-stage pipeline that performs optical character recognition, linguistic reasoning, and map-level verification through grid-based spatial scanning. The framework systematically evaluates each predicted location against contextual and visual evidence, ensuring interpretable, fine-grained geolocation outcomes without requiring model retraining. Applied to Bangla-language news data, ALIGN demonstrates consistent improvements over traditional geoparsing methods, accurately identifying district and sub-district-level crash sites. Beyond its technical contribution, the framework establishes a high accuracy foundation for automated crash mapping in data-scarce regions, supporting evidence-driven road-safety policymaking and the broader integration of multimodal artificial intelligence in transportation analytics. The code for this paper is open-source and available at: https://github.com/Thamed-Chowdhury/ALIGN
- Abstract(参考訳): 道路事故に関する信頼性の高い地理空間情報は、安全分析やインフラ計画に欠かせないが、低所得国や中所得国の多くは、正確な場所固有の事故データの不足に直面している。
既存のテキストベースのジオコーディングツールは、不完全な場所記述と混在したBangla- Englishスクリプトが空間的コンテキストを曖昧にしている、多言語および非構造化のニュース環境では性能が良くない。
これらの制約に対処するため, ALIGN (Accident Location Inference through Geo-Spatial Neural Reasoning) を導入する。
ALIGNは、グリッドベースの空間走査による光学的文字認識、言語推論、マップレベルの検証を行う多段階パイプライン内に、大きな言語モデルとビジョン言語モデルを統合する。
このフレームワークは、予測された各位置を文脈的および視覚的証拠に対して体系的に評価し、モデルの再訓練を必要とせずに、解釈可能できめ細かい位置決め結果を保証する。
バングラ語ニュースデータに適用されたALIGNは、従来のジオパーシング法よりも一貫した改善を示し、地区レベルと下位レベルのクラッシュサイトを正確に識別する。
技術的な貢献に加えて、このフレームワークは、データスカース地域の自動クラッシュマッピングのための高精度な基盤を確立し、エビデンス駆動の道路安全ポリシー作成と、交通分析におけるマルチモーダル人工知能の広範な統合をサポートする。
本論文のコードはオープンソースで,https://github.com/Thamed-Chowdhury/ALIGNで公開されている。
関連論文リスト
- Empowering LLM Agents with Geospatial Awareness: Toward Grounded Reasoning for Wildfire Response [9.801192259936888]
既存の統計的アプローチは意味的な文脈を欠くことが多く、イベント全体にわたって一般化し、限定的な解釈性を提供する。
地空間認識層(Geospatial Awareness Layer, GAL)を導入し, LLMエージェントを地球構造データに固定する。
GALは、外部ジオデータベースからインフラストラクチャ、人口統計、地形、気象情報を自動的に取得し、統合する。
このリッチなコンテキストにより、エージェントはエビデンスベースのリソース割り当てレコメンデーションを作成することができる。
論文 参考訳(メタデータ) (2025-10-14T01:59:02Z) - GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [20.788130896943663]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。
座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。
新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:56:21Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - Geographic Adaptation of Pretrained Language Models [29.81557992080902]
マルチタスク学習環境において,言語モデリングと位置情報予測を併用する中間学習ステップであるジオアダプテーションを導入する。
ジオアダプテーションの有効性は、事前訓練された言語モデルの表現空間を地理的に再現する能力に起因していることを示す。
論文 参考訳(メタデータ) (2022-03-16T11:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。