論文の概要: GeoDiT: A Diffusion-based Vision-Language Model for Geospatial Understanding
- arxiv url: http://arxiv.org/abs/2512.02505v1
- Date: Tue, 02 Dec 2025 07:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.778482
- Title: GeoDiT: A Diffusion-based Vision-Language Model for Geospatial Understanding
- Title(参考訳): GeoDiT:地理空間理解のための拡散型視覚言語モデル
- Authors: Jiaqi Liu, Ronghao Fu, Haoran Liu, Lang Sun, Bo Yang,
- Abstract要約: 地理空間領域に適した初めての拡散型視覚言語モデルであるGeoDiTを紹介する。
画像キャプション、視覚的接地、多物体検出において大きな進歩を遂げる。
本研究は, 複雑な地理空間解析において, 生成過程とデータ固有の構造との整合性が, 優れた性能の鍵となることを検証する。
- 参考スコア(独自算出の注目度): 14.436063587920005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models are structurally misaligned with the inherently parallel nature of geospatial understanding, forcing a rigid sequential narrative onto scenes and fundamentally hindering the generation of structured and coherent outputs. We challenge this paradigm by reframing geospatial generation as a parallel refinement process, enabling a holistic, coarse-to-fine synthesis that resolves all semantic elements simultaneously. To operationalize this, we introduce GeoDiT, the first diffusion-based vision-language model tailored for the geospatial domain. Extensive experiments demonstrate that GeoDiT establishes a new state-of-the-art on benchmarks requiring structured, object-centric outputs. It achieves significant gains in image captioning, visual grounding, and multi-object detection, precisely the tasks where autoregressive models falter. Our work validates that aligning the generative process with the data's intrinsic structure is key to unlocking superior performance in complex geospatial analysis.
- Abstract(参考訳): 自己回帰モデルは、地理的理解の本質的に平行な性質と構造的に不一致であり、厳密な逐次的な物語をシーンに強要し、構造的かつ一貫性のあるアウトプットの生成を根本的に妨げている。
このパラダイムは、地理空間生成を並列精製プロセスとして再定義し、全ての意味的要素を同時に解決する包括的で粗い合成を可能にすることで、このパラダイムに挑戦する。
これを運用するために,地理空間領域に適した拡散型視覚言語モデルGeoDiTを導入する。
大規模な実験により、GeoDiTは構造化されたオブジェクト中心の出力を必要とするベンチマークに対して、新しい最先端技術を確立している。
これは画像キャプション、視覚的接地、多目的検出において、正確に自己回帰モデルが失敗するタスクにおいて顕著に向上する。
本研究は, 複雑な地理空間解析において, 生成過程とデータ固有の構造との整合性が, 優れた性能の鍵となることを検証する。
関連論文リスト
- GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - Kuramoto Orientation Diffusion Models [67.0711709825854]
指紋やテクスチャなどのオリエンテーションに富んだ画像は、しばしばコヒーレントな角模様を示す。
生体系における位相同期の役割を動機として,スコアベース生成モデルを提案する。
一般的な画像ベンチマークで競合する結果を実装し,指紋やテクスチャなどの指向性データセットの生成品質を大幅に向上する。
論文 参考訳(メタデータ) (2025-09-18T18:18:49Z) - Geological Everything Model 3D: A Promptable Foundation Model for Unified and Zero-Shot Subsurface Understanding [9.766922279347547]
Geological Everything Model 3D (GEM) は、タスクを迅速な条件付き推論として再構成する統合生成アーキテクチャである。
GEMは、新しいタスクやデータソースを再訓練することなく、不均一なプロンプト型を持つタスク間でゼロショットの一般化を実現する。
GEMは、火星レーダー層序解析、沈み込み帯の構造解釈、完全な地震層序解釈、地体セグメンテーション、資産モデリングなど、調査やタスクに幅広い適用性を示す。
論文 参考訳(メタデータ) (2025-07-01T04:14:13Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。