論文の概要: Learning Generalized Zero-Shot Learners for Open-Domain Image
Geolocalization
- arxiv url: http://arxiv.org/abs/2302.00275v1
- Date: Wed, 1 Feb 2023 06:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:26:58.009708
- Title: Learning Generalized Zero-Shot Learners for Open-Domain Image
Geolocalization
- Title(参考訳): オープンドメイン画像ジオローカライズのための一般ゼロショット学習者
- Authors: Lukas Haas, Silas Alberti, Michal Skreta
- Abstract要約: 画像ジオローカライズのための堅牢で一般公開された基盤モデルであるStreetCLIPを提示する。
提案手法は,CLIPの汎用ゼロショット機能を画像ジオローカライズ領域に効果的に転送することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image geolocalization is the challenging task of predicting the geographic
coordinates of origin for a given photo. It is an unsolved problem relying on
the ability to combine visual clues with general knowledge about the world to
make accurate predictions across geographies. We present
$\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$, a
robust, publicly available foundation model not only achieving state-of-the-art
performance on multiple open-domain image geolocalization benchmarks but also
doing so in a zero-shot setting, outperforming supervised models trained on
more than 4 million images. Our method introduces a meta-learning approach for
generalized zero-shot learning by pretraining CLIP from synthetic captions,
grounding CLIP in a domain of choice. We show that our method effectively
transfers CLIP's generalized zero-shot capabilities to the domain of image
geolocalization, improving in-domain generalized zero-shot performance without
finetuning StreetCLIP on a fixed set of classes.
- Abstract(参考訳): 画像の局所化は、与えられた写真の原点の地理的座標を予測する難しいタスクである。
これは、視覚的な手がかりと世界の一般的な知識を組み合わせて、地理的に正確な予測を行う能力に依存する未解決の問題である。
我々は、複数のオープンドメイン画像ジオローカライゼーションベンチマークで最先端のパフォーマンスを達成するだけでなく、ゼロショット設定で、400万以上の画像でトレーニングされた教師付きモデルを上回るパフォーマンスで、堅牢で公開可能な基盤モデルである、$\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}を提示する。
提案手法では,合成キャプションからCLIPを事前学習し,選択領域にCLIPを接地することで,ゼロショット学習を一般化するためのメタラーニング手法を提案する。
提案手法は,CLIPの一般化ゼロショット能力を画像ジオローカライズ領域に効果的に転送し,固定されたクラスのStreetCLIPを微調整することなく,領域内一般化ゼロショット性能を向上させる。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction [67.43527289422978]
そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。
オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
論文 参考訳(メタデータ) (2023-10-02T17:58:52Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Adapting CLIP For Phrase Localization Without Further Training [30.467802103692378]
画像とキャプションのペアで事前学習したコントラスト言語ビジョンモデルであるCLIPを活用することを提案する。
我々は高分解能空間特徴写像を生成するためにCLIPを適用した。
フレーズローカライズのための手法は、人間のアノテーションや追加の訓練を必要としない。
論文 参考訳(メタデータ) (2022-04-07T17:59:38Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Zero-Shot Multi-View Indoor Localization via Graph Location Networks [66.05980368549928]
屋内ローカライゼーションは、位置ベースアプリケーションにおける基本的な問題である。
本稿では,インフラストラクチャフリーで多視点画像に基づく屋内ローカライゼーションを実現するために,新しいニューラルネットワークアーキテクチャであるGraph Location Networks(GLN)を提案する。
GLNは、メッセージパッシングネットワークを通じて画像から抽出されたロバストな位置表現に基づいて位置予測を行う。
新たにゼロショット屋内ローカライズ設定を導入し,提案したGLNを専用ゼロショットバージョンに拡張することで,その課題に対処する。
論文 参考訳(メタデータ) (2020-08-06T07:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。