論文の概要: Towards Vision-Language Geo-Foundation Model: A Survey
- arxiv url: http://arxiv.org/abs/2406.09385v1
- Date: Thu, 13 Jun 2024 17:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:15:58.943680
- Title: Towards Vision-Language Geo-Foundation Model: A Survey
- Title(参考訳): ビジョン・ランゲージ・ジオファウンデーション・モデルに向けて:サーベイ
- Authors: Yue Zhou, Litong Feng, Yiping Ke, Xue Jiang, Junchi Yan, Xue Yang, Wayne Zhang,
- Abstract要約: Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
- 参考スコア(独自算出の注目度): 65.70547895998541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Foundation Models (VLFMs) have made remarkable progress on various multimodal tasks, such as image captioning, image-text retrieval, visual question answering, and visual grounding. However, most methods rely on training with general image datasets, and the lack of geospatial data leads to poor performance on earth observation. Numerous geospatial image-text pair datasets and VLFMs fine-tuned on them have been proposed recently. These new approaches aim to leverage large-scale, multimodal geospatial data to build versatile intelligent models with diverse geo-perceptive capabilities, which we refer to as Vision-Language Geo-Foundation Models (VLGFMs). This paper thoroughly reviews VLGFMs, summarizing and analyzing recent developments in the field. In particular, we introduce the background and motivation behind the rise of VLGFMs, highlighting their unique research significance. Then, we systematically summarize the core technologies employed in VLGFMs, including data construction, model architectures, and applications of various multimodal geospatial tasks. Finally, we conclude with insights, issues, and discussions regarding future research directions. To the best of our knowledge, this is the first comprehensive literature review of VLGFMs. We keep tracing related works at https://github.com/zytx121/Awesome-VLGFM.
- Abstract(参考訳): Vision-Language Foundation Models (VLFMs) は、画像キャプション、画像テキスト検索、視覚的質問応答、視覚的接地など、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
しかし、ほとんどの手法は一般的な画像データセットによるトレーニングに依存しており、地理空間データの欠如は地球観測における性能の低下につながっている。
多数の地理空間的画像-テキストペアデータセットとVLFMを微調整したVLFMが最近提案されている。
これらの新しいアプローチは、大規模なマルチモーダルな地理空間データを活用し、多様な地理知覚能力を持つ多目的インテリジェントなモデルを構築することを目的としており、このモデルをVLGFM(Vision-Language Geo-Foundation Models)と呼ぶ。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
特に,VLGFMの台頭の背後にある背景とモチベーションを紹介する。
次に,データ構築やモデルアーキテクチャ,マルチモーダルな地理空間タスクの応用など,VLGFMで採用されているコア技術を体系的に要約する。
最後に、今後の研究方向性に関する洞察、課題、議論をまとめる。
我々の知る限りでは、VLGFMの総合的な文献レビューはこれが初めてである。
関連作業はhttps://github.com/zytx121/Awesome-VLGFMで追跡しています。
関連論文リスト
- Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - Position: Graph Foundation Models are Already Here [53.737868336014735]
グラフ基礎モデル(GFM)は、グラフ領域において重要な研究トピックとして浮上している。
グラフ語彙の提唱によるGFM開発のための新しい視点」を提案する。
この観点は、将来のGFM設計を、ニューラルネットワークのスケーリング法則に従って前進させる可能性がある。
論文 参考訳(メタデータ) (2024-02-03T17:24:36Z) - On the Promises and Challenges of Multimodal Foundation Models for
Geographical, Environmental, Agricultural, and Urban Planning Applications [38.416917485939486]
本稿では,地理,環境科学,農業,都市計画の領域におけるGPT-4Vの能力について考察する。
データソースには、衛星画像、空中写真、地上画像、フィールド画像、パブリックデータセットが含まれる。
このモデルは,地理的局在化,地図からのテキストデータ抽出,リモートセンシング画像分類,視覚的質問応答,作物型識別,病気・害虫・雑草認識,鶏の行動分析,農業オブジェクトカウント,都市計画知識質問応答,計画生成など,一連のタスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-12-23T22:36:58Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - OV-VG: A Benchmark for Open-Vocabulary Visual Grounding [33.02137080950678]
この研究は、新規で挑戦的なオープンボキャブラリ視覚タスクを導入している。
包括的な目的は、言語記述と新しいオブジェクトのローカライゼーションの関連を確立することである。
我々は、7,272 OV-VG画像と1,000 OV-PL画像を含むベンチマークをキュレートした。
論文 参考訳(メタデータ) (2023-10-22T17:54:53Z) - Towards Graph Foundation Models: A Survey and Beyond [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
基礎モデルがグラフ機械学習研究者を一般化し、適応させる能力は、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - City Foundation Models for Learning General Purpose Representations from
OpenStreetMap [17.577683270277173]
本稿では,都市のような選択された地理的関心領域における基礎モデルをトレーニングするためのフレームワークであるCityFMを紹介する。
CityFMはOpenStreetMapからのオープンデータにのみ依存し、異なるタイプのエンティティ、空間、視覚、およびテキスト情報のマルチモーダル表現を生成する。
すべての実験において、CityFMはベースラインに匹敵する、あるいは同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-01T05:55:30Z) - On the Opportunities and Challenges of Foundation Models for Geospatial
Artificial Intelligence [39.86997089245117]
ファンデーションモデル(FM)は、微調整、少数ショット、ゼロショット学習によって、幅広い下流タスクに適応することができる。
我々は,GeoAIのためのFMを開発する上で大きな課題の一つとして,地理空間的タスクのマルチモーダル性に対処することを提案する。
論文 参考訳(メタデータ) (2023-04-13T19:50:17Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。