Fugu-MT 論文翻訳(概要): Towards Vision-Language Geo-Foundation Model: A Survey

論文の概要: Towards Vision-Language Geo-Foundation Model: A Survey

arxiv url: http://arxiv.org/abs/2406.09385v1
Date: Thu, 13 Jun 2024 17:57:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 16:15:58.943680
Title: Towards Vision-Language Geo-Foundation Model: A Survey
Title（参考訳）: ビジョン・ランゲージ・ジオファウンデーション・モデルに向けて:サーベイ
Authors: Yue Zhou, Litong Feng, Yiping Ke, Xue Jiang, Junchi Yan, Xue Yang, Wayne Zhang,
Abstract要約: Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
参考スコア（独自算出の注目度）: 65.70547895998541
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Foundation Models (VLFMs) have made remarkable progress on various multimodal tasks, such as image captioning, image-text retrieval, visual question answering, and visual grounding. However, most methods rely on training with general image datasets, and the lack of geospatial data leads to poor performance on earth observation. Numerous geospatial image-text pair datasets and VLFMs fine-tuned on them have been proposed recently. These new approaches aim to leverage large-scale, multimodal geospatial data to build versatile intelligent models with diverse geo-perceptive capabilities, which we refer to as Vision-Language Geo-Foundation Models (VLGFMs). This paper thoroughly reviews VLGFMs, summarizing and analyzing recent developments in the field. In particular, we introduce the background and motivation behind the rise of VLGFMs, highlighting their unique research significance. Then, we systematically summarize the core technologies employed in VLGFMs, including data construction, model architectures, and applications of various multimodal geospatial tasks. Finally, we conclude with insights, issues, and discussions regarding future research directions. To the best of our knowledge, this is the first comprehensive literature review of VLGFMs. We keep tracing related works at https://github.com/zytx121/Awesome-VLGFM.
Abstract（参考訳）: Vision-Language Foundation Models (VLFMs) は、画像キャプション、画像テキスト検索、視覚的質問応答、視覚的接地など、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。しかし、ほとんどの手法は一般的な画像データセットによるトレーニングに依存しており、地理空間データの欠如は地球観測における性能の低下につながっている。多数の地理空間的画像-テキストペアデータセットとVLFMを微調整したVLFMが最近提案されている。これらの新しいアプローチは、大規模なマルチモーダルな地理空間データを活用し、多様な地理知覚能力を持つ多目的インテリジェントなモデルを構築することを目的としており、このモデルをVLGFM(Vision-Language Geo-Foundation Models)と呼ぶ。本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。特に,VLGFMの台頭の背後にある背景とモチベーションを紹介する。次に,データ構築やモデルアーキテクチャ,マルチモーダルな地理空間タスクの応用など,VLGFMで採用されているコア技術を体系的に要約する。最後に、今後の研究方向性に関する洞察、課題、議論をまとめる。我々の知る限りでは、VLGFMの総合的な文献レビューはこれが初めてである。関連作業はhttps://github.com/zytx121/Awesome-VLGFMで追跡しています。

関連論文リスト

Survey of Multimodal Geospatial Foundation Models: Techniques, Applications, and Challenges [54.669838624278924]
基礎モデルは自然言語処理とコンピュータビジョンに変化をもたらした。強力な一般化と伝達学習機能により、リモートセンシングデータのマルチモーダル、マルチレゾリューション、マルチ時間特性と自然に一致させる。この調査は、モーダリティ駆動の観点から、マルチモーダルGFMの包括的なレビューを提供する。
論文参考訳（メタデータ） (2025-10-27T03:40:00Z)
Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey [86.96983249116614]
Image-Language Foundation Models (ILFM) は画像テキスト理解・生成タスクにおいて顕著な成功を収めている。この調査は、この新興分野に関する最初の総合的なレビューを提供する。
論文参考訳（メタデータ） (2025-10-12T15:56:02Z)
Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文参考訳（メタデータ） (2025-05-20T13:47:40Z)
OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。地理空間応用に適したMLLM(OmniGeo)を提案する。自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文参考訳（メタデータ） (2025-03-20T16:45:48Z)
GeoLangBind: Unifying Earth Observation with Agglomerative Vision-Language Foundation Models [27.878058177228727]
GeoLangBindは、新しい集合的視覚-言語基盤モデルである。言語を統一媒体とする異種EOデータモダリティ間のギャップを埋める。我々のアプローチは、異なるEOデータ型を共通の言語埋め込みスペースに整合させる。
論文参考訳（メタデータ） (2025-03-08T19:10:04Z)
Towards Visual Grounding: A Survey [99.0950608237702]
Referring Expression や Phrase Grounding としても知られる Visual Grounding は、与えられた式テキストに基づいてイメージ内の特定の領域をグラウンドすることを目的としている。 2021年以降、視覚的な接地は大幅に進歩し、接地事前訓練のような新しい概念が生まれている。本稿では,視覚的グラウンドリングの分野で現在利用可能な,最も包括的な概要を示す。
論文参考訳（メタデータ） (2024-12-28T16:34:35Z)
LangGFM: A Large Language Model Alone Can be a Powerful Graph Foundation Model [27.047809869136458]
グラフ基礎モデル(GFM)が最近注目を集めている。現在の研究は、グラフ学習タスクの特定のサブセットに焦点を当てる傾向がある。 GFMBenchは26のデータセットからなる体系的で包括的なベンチマークである。また,大規模言語モデルに完全に依存する新しいGFMであるLangGFMを紹介する。
論文参考訳（メタデータ） (2024-10-19T03:27:19Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文参考訳（メタデータ） (2024-02-27T08:27:15Z)
Position: Graph Foundation Models are Already Here [53.737868336014735]
グラフ基礎モデル(GFM)は、グラフ領域において重要な研究トピックとして浮上している。グラフ語彙の提唱によるGFM開発のための新しい視点」を提案する。この観点は、将来のGFM設計を、ニューラルネットワークのスケーリング法則に従って前進させる可能性がある。
論文参考訳（メタデータ） (2024-02-03T17:24:36Z)
On the Promises and Challenges of Multimodal Foundation Models for Geographical, Environmental, Agricultural, and Urban Planning Applications [38.416917485939486]
本稿では,地理,環境科学,農業,都市計画の領域におけるGPT-4Vの能力について考察する。データソースには、衛星画像、空中写真、地上画像、フィールド画像、パブリックデータセットが含まれる。このモデルは,地理的局在化,地図からのテキストデータ抽出,リモートセンシング画像分類,視覚的質問応答,作物型識別,病気・害虫・雑草認識,鶏の行動分析,農業オブジェクトカウント,都市計画知識質問応答,計画生成など,一連のタスクに基づいて評価される。
論文参考訳（メタデータ） (2023-12-23T22:36:58Z)
ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。 PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文参考訳（メタデータ） (2023-10-27T10:44:50Z)
City Foundation Models for Learning General Purpose Representations from OpenStreetMap [16.09047066527081]
本稿では,都市のような選択された地理的関心領域における基礎モデルをトレーニングするためのフレームワークであるCityFMを紹介する。 CityFMはOpenStreetMapからのオープンデータにのみ依存し、異なるタイプのエンティティ、空間、視覚、およびテキスト情報のマルチモーダル表現を生成する。すべての実験において、CityFMはベースラインに匹敵する、あるいは同等のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-10-01T05:55:30Z)
On the Opportunities and Challenges of Foundation Models for Geospatial Artificial Intelligence [39.86997089245117]
ファンデーションモデル(FM)は、微調整、少数ショット、ゼロショット学習によって、幅広い下流タスクに適応することができる。我々は,GeoAIのためのFMを開発する上で大きな課題の一つとして,地理空間的タスクのマルチモーダル性に対処することを提案する。
論文参考訳（メタデータ） (2023-04-13T19:50:17Z)
A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文参考訳（メタデータ） (2022-11-04T09:58:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。