論文の概要: AutoTour: Automatic Photo Tour Guide with Smartphones and LLMs
- arxiv url: http://arxiv.org/abs/2601.06781v1
- Date: Sun, 11 Jan 2026 05:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.981021
- Title: AutoTour: Automatic Photo Tour Guide with Smartphones and LLMs
- Title(参考訳): AutoTour:スマートフォンとLLMを使った自動写真ツアーガイド
- Authors: Huatao Xu, Zihe Liu, Zilin Zeng, Baichuan Li, Mo Li,
- Abstract要約: 本稿では,ユーザによって撮影された写真に対する詳細なランドマークアノテーションや記述的物語を自動的に生成することで,ユーザの探索を強化するシステムAutoTourを提案する。
AutoTourのキーとなるアイデアは、写真から抽出した視覚的特徴と、近くの地理空間的特徴とを、オープンマッチングデータベースから検索することです。
AutoTourは、象徴的かつあまり知られていないランドマークに対して、リッチで解釈可能なアノテーションを提供することで、インタラクティブでコンテキスト対応の新たなタイプの探索を可能にします。
- 参考スコア(独自算出の注目度): 4.443162611503121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AutoTour, a system that enhances user exploration by automatically generating fine-grained landmark annotations and descriptive narratives for photos captured by users. The key idea of AutoTour is to fuse visual features extracted from photos with nearby geospatial features queried from open matching databases. Unlike existing tour applications that rely on pre-defined content or proprietary datasets, AutoTour leverages open and extensible data sources to provide scalable and context-aware photo-based guidance. To achieve this, we design a training-free pipeline that first extracts and filters relevant geospatial features around the user's GPS location. It then detects major landmarks in user photos through VLM-based feature detection and projects them into the horizontal spatial plane. A geometric matching algorithm aligns photo features with corresponding geospatial entities based on their estimated distance and direction. The matched features are subsequently grounded and annotated directly on the original photo, accompanied by large language model-generated textual and audio descriptions to provide an informative, tour-like experience. We demonstrate that AutoTour can deliver rich, interpretable annotations for both iconic and lesser-known landmarks, enabling a new form of interactive, context-aware exploration that bridges visual perception and geospatial understanding.
- Abstract(参考訳): 本稿では,ユーザによって撮影された写真に対する詳細なランドマークアノテーションや記述的物語を自動的に生成することで,ユーザの探索を強化するシステムAutoTourを提案する。
AutoTourのキーとなるアイデアは、写真から抽出した視覚的特徴と、近くの地理空間的特徴とを、オープンなマッチングデータベースから検索することです。
事前に定義されたコンテンツやプロプライエタリなデータセットに依存する既存のツアーアプリケーションとは異なり、AutoTourはオープンで拡張可能なデータソースを活用して、スケーラブルでコンテキスト対応の写真ベースのガイダンスを提供する。
そこで我々は,まずユーザのGPS位置に関する地理空間的特徴を抽出し,フィルタする訓練不要パイプラインを設計する。
次に、VLMベースの特徴検出を通じてユーザー写真の重要なランドマークを検出し、それらを水平空間面に投影する。
幾何マッチングアルゴリズムは、その推定距離と方向に基づいて、写真特徴と対応する地理空間的実体を整列する。
マッチした特徴はその後、元の写真に直接接地して注釈付けされ、大きな言語モデルが生成したテキストとオーディオの説明が伴って、情報的、ツアー的な体験を提供する。
私たちはAutoTourが、象徴的かつあまり知られていないランドマークの両方に対して、リッチで解釈可能なアノテーションを提供し、視覚的知覚と地理空間的理解を橋渡しする、インタラクティブでコンテキスト対応の新たな調査を可能にすることを実証した。
関連論文リスト
- Spatial Retrieval Augmented Autonomous Driving [81.39665750557526]
既存の自動運転システムは、環境認識のためのセンサーに頼っている。
本稿では,オフラインで取得した地理画像を付加入力として導入する空間検索パラダイムを提案する。
この新しい自動運転パラダイムのさらなる研究のために、データセットキュレーションコード、データ、ベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2025-12-07T14:40:49Z) - DescribeEarth: Describe Anything for Remote Sensing Images [56.04533626223295]
リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。
また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
論文 参考訳(メタデータ) (2025-09-30T01:53:34Z) - IMAIA: Interactive Maps AI Assistant for Travel Planning and Geo-Spatial Intelligence [36.703562827382655]
インタラクティブなマップAIアシスタントであるIMAIAを紹介する。
ベクトル(ストリート)マップと衛星画像の両方との自然言語による対話を可能にする。
カメラの入力を地理空間知能で拡張し、ユーザーが世界を理解するのを助ける。
論文 参考訳(メタデータ) (2025-07-09T16:18:09Z) - GPS as a Control Signal for Image Generation [95.43433150105385]
画像メタデータに含まれるGPSタグは,画像生成に有用な制御信号であることを示す。
私たちはGPSと画像のモデルをトレーニングし、都市内の画像がどのように変化するかの詳細な理解を必要とするタスクにそれらを使用します。
論文 参考訳(メタデータ) (2025-01-21T18:59:46Z) - Continuous Self-Localization on Aerial Images Using Visual and Lidar
Sensors [25.87104194833264]
本研究では,車両のセンサ情報を未確認対象領域の航空画像に登録することにより,屋外環境におけるジオトラッキング手法を提案する。
我々は、地上および空中画像から視覚的特徴を抽出するために、計量学習環境でモデルを訓練する。
本手法は,視認不可能な正光の自己局在化のために,エンド・ツー・エンドの微分可能なモデルでオンボードカメラを利用する最初の方法である。
論文 参考訳(メタデータ) (2022-03-07T12:25:44Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。