論文の概要: AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization
- arxiv url: http://arxiv.org/abs/2407.08156v1
- Date: Thu, 11 Jul 2024 03:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:58:33.366098
- Title: AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization
- Title(参考訳): AddressCLIP: 都市全体像の位置情報化のための視覚言語モデルの構築
- Authors: Shixiong Xu, Chenghao Zhang, Lubin Fan, Gaofeng Meng, Shiming Xiang, Jieping Ye,
- Abstract要約: そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
- 参考スコア(独自算出の注目度): 57.34659640776723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we introduce a new problem raised by social media and photojournalism, named Image Address Localization (IAL), which aims to predict the readable textual address where an image was taken. Existing two-stage approaches involve predicting geographical coordinates and converting them into human-readable addresses, which can lead to ambiguity and be resource-intensive. In contrast, we propose an end-to-end framework named AddressCLIP to solve the problem with more semantics, consisting of two key ingredients: i) image-text alignment to align images with addresses and scene captions by contrastive learning, and ii) image-geography matching to constrain image features with the spatial distance in terms of manifold learning. Additionally, we have built three datasets from Pittsburgh and San Francisco on different scales specifically for the IAL problem. Experiments demonstrate that our approach achieves compelling performance on the proposed datasets and outperforms representative transfer learning methods for vision-language models. Furthermore, extensive ablations and visualizations exhibit the effectiveness of the proposed method. The datasets and source code are available at https://github.com/xsx1001/AddressCLIP.
- Abstract(参考訳): 本研究では,ソーシャルメディアやフォトジャーナリストによる新たな問題である画像アドレス局所化(ial)を導入し,画像が撮られた場合の可読なテキストアドレスを予測することを目的とした。
既存の2段階のアプローチでは、地理的座標を予測し、それを人間可読アドレスに変換し、曖昧さとリソース集約化につながる可能性がある。
これとは対照的に、より意味論的に問題を解決するためにAddressCLIPというエンドツーエンドのフレームワークを提案する。
一 コントラスト学習により、画像と住所及びシーンキャプションとを一致させる画像テキストアライメント
二 画像特徴と空間的距離を、多様体学習の観点で制約する画像地形整合性
さらに、私たちはピッツバーグとサンフランシスコの3つのデータセットを、IAL問題に特化したさまざまなスケールで構築しました。
実験により,提案手法は,提案したデータセットに対して魅力的な性能を達成し,視覚言語モデルに対する代表的伝達学習手法より優れることを示した。
さらに,提案手法の有効性を広範囲に検証し,可視化を行った。
データセットとソースコードはhttps://github.com/xsx1001/AddressCLIPで入手できる。
関連論文リスト
- ProGEO: Generating Prompts through Image-Text Contrastive Learning for Visual Geo-localization [0.0]
そこで本稿では,視覚性能を向上させるための2段階学習手法を提案する。
提案手法の有効性を複数の大規模視覚的ジオローカライゼーションデータセットで検証する。
論文 参考訳(メタデータ) (2024-06-04T02:28:51Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Dual Graph Convolutional Networks with Transformer and Curriculum
Learning for Image Captioning [26.496357517937614]
既存の画像キャプション手法は、単一のイメージ内のオブジェクトやインスタンスの関係を理解することだけに焦点を当てている。
画像キャプションのための変換器とカリキュラム学習を備えたデュアルグラフ畳み込みネットワーク(Dual-GCN)を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:57:06Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。