Fugu-MT 論文翻訳(概要): Granular Privacy Control for Geolocation with Vision Language Models

論文の概要: Granular Privacy Control for Geolocation with Vision Language Models

arxiv url: http://arxiv.org/abs/2407.04952v1
Date: Sat, 6 Jul 2024 04:06:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 21:47:42.839675
Title: Granular Privacy Control for Geolocation with Vision Language Models
Title（参考訳）: 視覚言語モデルを用いた位置情報の粒度プライバシ制御
Authors: Ethan Mendes, Yang Chen, James Hays, Sauvik Das, Wei Xu, Alan Ritter,
Abstract要約: GPTGeoChatと呼ばれる新しいベンチマークを開発し、ユーザとの位置情報対話を適度に行うビジョン言語モデルの能力をテストする。我々は,室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集する。位置情報が多すぎるかどうかを判断することで,GPT-4vの位置情報会話を適度に行う様々なVLMの能力を評価する。
参考スコア（独自算出の注目度）: 36.3455665044992
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision Language Models (VLMs) are rapidly advancing in their capability to answer information-seeking questions. As these models are widely deployed in consumer applications, they could lead to new privacy risks due to emergent abilities to identify people in photos, geolocate images, etc. As we demonstrate, somewhat surprisingly, current open-source and proprietary VLMs are very capable image geolocators, making widespread geolocation with VLMs an immediate privacy risk, rather than merely a theoretical future concern. As a first step to address this challenge, we develop a new benchmark, GPTGeoChat, to test the ability of VLMs to moderate geolocation dialogues with users. We collect a set of 1,000 image geolocation conversations between in-house annotators and GPT-4v, which are annotated with the granularity of location information revealed at each turn. Using this new dataset, we evaluate the ability of various VLMs to moderate GPT-4v geolocation conversations by determining when too much location information has been revealed. We find that custom fine-tuned models perform on par with prompted API-based models when identifying leaked location information at the country or city level; however, fine-tuning on supervised data appears to be needed to accurately moderate finer granularities, such as the name of a restaurant or building.
Abstract（参考訳）: 視覚言語モデル(VLM)は、情報検索の質問に答える能力において急速に進歩している。これらのモデルはコンシューマー向けアプリケーションに広くデプロイされているため、写真内の人物を特定したり、画像の位置を測ったりすることで、新たなプライバシーリスクにつながる可能性がある。驚くべきことに、現在のオープンソースおよびプロプライエタリなVLMは、非常に有能な画像測位器であり、VLMによる広範な位置情報は、単なる理論的な将来的な懸念ではなく、すぐにプライバシー上のリスクとなる。この課題に対処する第一歩として,ユーザとの位置情報対話を適度に行うVLMの能力をテストするため,新しいベンチマークであるGPTGeoChatを開発した。室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集し、各ターンに表示される位置情報の粒度にアノテートする。新たなデータセットを用いて、位置情報が多すぎるかどうかを判断することで、様々なVLMがGPT-4vの位置情報通信を適度に行う能力を評価する。カスタムの微調整モデルは、国や都市レベルで漏洩した位置情報を特定する際に、誘導されたAPIベースのモデルと同等に動作するが、レストランや建物の名前など、より細かい粒度を正確に調整するためには、教師付きデータによる微調整が必要である。

関連論文リスト

GAEA: A Geolocation Aware Conversational Model [41.622284747213925]
本稿では,ユーザの要求に応じて,画像の位置に関する情報を提供する対話モデルGAEAを提案する。 GAEA-1.6Mは、OpenStreetMap(OSM)属性と地理的コンテキストヒントを活用することで構築された800Kイメージと約1.6Mの質問応答ペアを備えた包括的なデータセットである。我々は、最先端のオープンソースとプロプライエタリなLMMを11種類検討し、GAEAが最高のオープンソースモデルであるLLaVA-OneVisionを25.69%、プロプライエタリモデルであるGPT-4oを8.28%上回っていることを示す。
論文参考訳（メタデータ） (2025-03-20T17:59:47Z)
OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。地理空間応用に適したMLLM(OmniGeo)を提案する。自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文参考訳（メタデータ） (2025-03-20T16:45:48Z)
Evaluating Precise Geolocation Inference Capabilities of Vision Language Models [0.0]
本稿では,Googleストリートビューから収集したベンチマークデータセットについて紹介する。基礎モデルは単一画像の位置推定に基づいて評価され、その多くが300kmの中央値誤差を達成している。さらに,補助具へのアクセスによりVLMの「エージェント」を評価し,最大30.6%の距離誤差を観察した。
論文参考訳（メタデータ） (2025-02-20T09:59:28Z)
Image-based Geo-localization for Robotics: Are Black-box Vision-Language Models there yet? [25.419763184667985]
VLM(Vision-Language Model)は、画像ジオローカライゼーションを含むロボットアプリケーションにエキサイティングな機会を提供する。近年の研究では、VLMをジオローカライゼーションのための埋め込み抽出器として利用することに焦点を当てている。本稿では,最先端のVLMをスタンドアローン・ゼロショット・ジオローカライズシステムとしての可能性について検討する。
論文参考訳（メタデータ） (2025-01-28T13:46:01Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。 GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文参考訳（メタデータ） (2024-08-18T13:39:43Z)
Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文参考訳（メタデータ） (2024-06-13T17:57:30Z)
GeoReasoner: Geo-localization with Reasoning in Street Views using a Large Vision-Language Model [6.135404769437841]
本研究は,大規模視覚言語モデル(LVLM)を用いた新しいパラダイムによる地理的局在化の課題に取り組む。既存のストリートビューデータセットには、視覚的な手がかりがなく、推論に理由がない多くの低品質画像が含まれていることが多い。データ品質の問題に対処するため、我々はCLIPベースのネットワークを考案し、街路ビュー画像がどこにあるかを定量化する。推論の精度を高めるために,実地局所化ゲームから得られた外部知識を統合し,価値ある人間の推論能力を活用する。
論文参考訳（メタデータ） (2024-06-03T18:08:56Z)
PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文参考訳（メタデータ） (2024-02-13T18:39:18Z)
Good at captioning, bad at counting: Benchmarking GPT-4V on Earth observation data [7.797577465015058]
本研究では,地球観測データに有用なツールとして,VLM(Large Vision-Language Models)の進展を評価するためのベンチマークを提案する。私たちのベンチマークには、都市モニタリング、災害救助、土地利用、保全といったシナリオが含まれています。私たちのベンチマークはhttps://vleo.danielz.ch/とHugging Face at https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466555489cce0d70で公開されます。
論文参考訳（メタデータ） (2024-01-31T04:57:12Z)
GeoLocator: a location-integrated large multimodal model for inferring geo-privacy [6.7452045691798945]
本研究はGeoLocatorというGPT-4に基づく位置積分モデルを開発した。実験により、GeoLocatorは特定の地理的詳細を高精度に生成することが明らかとなった。我々はGeoLocatorの幅広い意味と、個人やコミュニティ全体に対する我々の発見を結論づける。
論文参考訳（メタデータ） (2023-11-21T21:48:51Z)
GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文参考訳（メタデータ） (2023-10-10T00:03:23Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。