論文の概要: LLMGeo: Benchmarking Large Language Models on Image Geolocation In-the-wild
- arxiv url: http://arxiv.org/abs/2405.20363v1
- Date: Thu, 30 May 2024 17:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:44:15.881271
- Title: LLMGeo: Benchmarking Large Language Models on Image Geolocation In-the-wild
- Title(参考訳): LLMGeo: 画像ジオロケーションにおける大規模言語モデルのベンチマーク
- Authors: Zhiqiang Wang, Dejia Xu, Rana Muhammad Shahroz Khan, Yanbin Lin, Zhiwen Fan, Xingquan Zhu,
- Abstract要約: 画像位置情報のためのクローズドソースおよびオープンソースマルチモーダル言語モデルの評価を行った。
その結果,クローズド・ソース・モデルは位置決め能力に優れており,オープンソース・モデルは微調整により同等の性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 21.74299884880949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image geolocation is a critical task in various image-understanding applications. However, existing methods often fail when analyzing challenging, in-the-wild images. Inspired by the exceptional background knowledge of multimodal language models, we systematically evaluate their geolocation capabilities using a novel image dataset and a comprehensive evaluation framework. We first collect images from various countries via Google Street View. Then, we conduct training-free and training-based evaluations on closed-source and open-source multi-modal language models. we conduct both training-free and training-based evaluations on closed-source and open-source multimodal language models. Our findings indicate that closed-source models demonstrate superior geolocation abilities, while open-source models can achieve comparable performance through fine-tuning.
- Abstract(参考訳): 画像位置情報は、様々な画像理解アプリケーションにおいて重要な課題である。
しかし、既存の手法は、難易度の高い画像を分析する際に失敗することが多い。
マルチモーダル言語モデルの特別な背景知識にヒントを得て,新しい画像データセットと包括的評価フレームワークを用いて,その位置情報機能を体系的に評価する。
まずは、Googleストリートビューを通じて、さまざまな国から画像を収集します。
そこで我々は,クローズドソースおよびオープンソースマルチモーダル言語モデルのトレーニングフリーおよびトレーニングベース評価を行った。
我々は、クローズドソースおよびオープンソースマルチモーダル言語モデル上で、トレーニングフリーとトレーニングベースの両方の評価を行います。
その結果,クローズド・ソース・モデルは位置決め能力に優れており,オープンソース・モデルは微調整により同等の性能が得られることがわかった。
関連論文リスト
- Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - ProGEO: Generating Prompts through Image-Text Contrastive Learning for Visual Geo-localization [0.0]
そこで本稿では,視覚性能を向上させるための2段階学習手法を提案する。
提案手法の有効性を複数の大規模視覚的ジオローカライゼーションデータセットで検証する。
論文 参考訳(メタデータ) (2024-06-04T02:28:51Z) - Pixel Aligned Language Models [94.32841818609914]
我々は、位置を入力または出力として捉えることができる視覚言語モデルを開発した。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
論文 参考訳(メタデータ) (2023-12-14T18:57:58Z) - Localized Symbolic Knowledge Distillation for Visual Commonsense Models [150.18129140140238]
ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。
大規模言語モデルから局所的なコモンセンス知識を抽出してモデルを訓練する。
局所化コモンセンスコーパスのトレーニングにより,既存の視覚言語モデルを抽出し,リファレンス・アズ・インプット・インタフェースをサポートできることが判明した。
論文 参考訳(メタデータ) (2023-12-08T05:23:50Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - On the Opportunities and Challenges of Foundation Models for Geospatial
Artificial Intelligence [39.86997089245117]
ファンデーションモデル(FM)は、微調整、少数ショット、ゼロショット学習によって、幅広い下流タスクに適応することができる。
我々は,GeoAIのためのFMを開発する上で大きな課題の一つとして,地理空間的タスクのマルチモーダル性に対処することを提案する。
論文 参考訳(メタデータ) (2023-04-13T19:50:17Z) - Deep Learning Model with GA based Feature Selection and Context
Integration [2.3472688456025756]
本稿では,視覚的特徴と並行して,グローバル・ローカル・コンテクスト情報と独立に同化・学習する3層深層学習モデルを提案する。
提案モデルの新規性は,視覚層に遺伝的アルゴリズム(GA)を最適化した特徴を学習するために,1-vs-Allバイナリクラスベースの学習者が導入されたことである。
グローバルおよびローカルなコンテキスト情報を備えた最適化された視覚機能は、精度を改善し、最先端の深層CNNモデルに匹敵する安定した予測を生成するために重要な役割を果たす。
論文 参考訳(メタデータ) (2022-04-13T06:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。