論文の概要: Which Country Is This? Automatic Country Ranking of Street View Photos
- arxiv url: http://arxiv.org/abs/2406.07227v1
- Date: Tue, 11 Jun 2024 13:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:03:55.291825
- Title: Which Country Is This? Automatic Country Ranking of Street View Photos
- Title(参考訳): これはどの国か?ストリートビューの写真の自動ランク付け
- Authors: Tim Menzner, Jochen L. Leidner, Florian Mittag,
- Abstract要約: 私たちは、写真が撮影されている国を推測するライブシステムである Country Guesserを紹介します。
特に、Googleストリートビューの画像が与えられた場合、当社のフェデレーションランキングモデルは、コンピュータビジョン、機械学習、テキスト検索の手法を組み合わせています。
- 参考スコア(独自算出の注目度): 3.780441744500289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this demonstration, we present Country Guesser, a live system that guesses the country that a photo is taken in. In particular, given a Google Street View image, our federated ranking model uses a combination of computer vision, machine learning and text retrieval methods to compute a ranking of likely countries of the location shown in a given image from Street View. Interestingly, using text-based features to probe large pre-trained language models can assist to provide cross-modal supervision. We are not aware of previous country guessing systems informed by visual and textual features.
- Abstract(参考訳): このデモでは、写真が撮影されている国を推測するライブシステムである Country Guesserを紹介します。
特に、Googleストリートビューの画像が与えられた場合、当社のフェデレーションランキングモデルは、コンピュータビジョン、機械学習、テキスト検索の手法を組み合わせて、ストリートビューから表示された位置の可能性のある国をランク付けします。
興味深いことに、テキストベースの機能を使用して、大規模な事前訓練された言語モデルを探索することで、モーダル間監視の提供を支援することができる。
我々は、視覚的特徴やテキスト的特徴から、以前の国での推測システムに気づいていない。
関連論文リスト
- Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - Breaking the Frame: Image Retrieval by Visual Overlap Prediction [53.17564423756082]
本稿では,隠蔽や複雑なシーンを効果的に扱う新しい視覚的位置認識手法,VOPを提案する。
提案手法は,高コストな特徴検出とマッチングを必要とせず,可視画像区間の識別を可能にする。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Generative AI May Prefer to Present National-level Characteristics of
Cities Based on Stereotypical Geographic Impressions at the Continental Level [0.0]
Wenxin Yigeから生成されたストリートビュー画像は、様々な国で見られる多様な都市景観を適切に表現していない。
これら生成されたイメージを地理教育やアウトリーチ・イニシアチブに利用すれば、自国に関する既存のステレオタイプ的見解が必然的に強化される可能性がある。
論文 参考訳(メタデータ) (2023-10-07T19:11:40Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - Which country is this picture from? New data and methods for DNN-based
country recognition [33.73817899937691]
これまでの研究は主に、写真が撮影された場所のジオコーディネートの推定に焦点が当てられていた。
約400万枚の画像を含む新しいデータセットであるVIPPGeoデータセットを導入する。
このデータセットを用いて、国別認識問題を分類問題とするディープラーニングアーキテクチャを訓練する。
論文 参考訳(メタデータ) (2022-09-02T10:56:41Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - TextMage: The Automated Bangla Caption Generator Based On Deep Learning [1.2330326247154968]
TextMageはバングラデシュの地理的文脈に属する視覚シーンを理解することができるシステムである。
このデータセットには、9,154のイメージと、各イメージに対する2つのアノテーションが含まれている。
論文 参考訳(メタデータ) (2020-10-15T23:24:15Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z) - Automatic Signboard Detection and Localization in Densely Populated
Developing Cities [0.0]
自然シーン画像における看板検出は, エラーのない情報検索における最優先課題である。
本稿では,看板を自動的に検出し,そのような都市に適した新しい物体検出手法を提案する。
提案手法では,符号板を正確に検出できる(背景の形状や色が多様であっても平均精度は0.90 mAP)。
論文 参考訳(メタデータ) (2020-03-04T08:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。