論文の概要: Incorporating Geo-Diverse Knowledge into Prompting for Increased
Geographical Robustness in Object Recognition
- arxiv url: http://arxiv.org/abs/2401.01482v1
- Date: Wed, 3 Jan 2024 01:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:34:28.064947
- Title: Incorporating Geo-Diverse Knowledge into Prompting for Increased
Geographical Robustness in Object Recognition
- Title(参考訳): 物体認識における地理的ロバスト性向上のためのジオディバース知識の活用
- Authors: Kyle Buettner, Sina Malakouti, Xiang Lorraine Li, Adriana Kovashka
- Abstract要約: 対象カテゴリの地理固有の記述的知識は、堅牢性を高めるために活用できることを示す。
そこで本稿では,ソフトプロンプトが未確認対象の地理集合に一般化することを保証するために,地理知識の正規化手法を提案する。
ヨーロッパからのデータでのみ訓練されたモデルから一般化したDolarStreetは、アフリカからの国では+2.8、最も厳しいクラスでは+4.6である。
- 参考スコア(独自算出の注目度): 26.984695519402557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing object recognition models have been shown to lack robustness in
diverse geographical scenarios due to significant domain shifts in design and
context. Class representations need to be adapted to more accurately reflect an
object concept under these shifts. In the absence of training data from target
geographies, we hypothesize that geography-specific descriptive knowledge of
object categories can be leveraged to enhance robustness. For this purpose, we
explore the feasibility of probing a large-language model for
geography-specific object knowledge, and we investigate integrating knowledge
in zero-shot and learnable soft prompting with the CLIP vision-language model.
In particular, we propose a geography knowledge regularization method to ensure
that soft prompts trained on a source set of geographies generalize to an
unseen target set of geographies. Our gains on DollarStreet when generalizing
from a model trained only on data from Europe are as large as +2.8 on countries
from Africa, and +4.6 on the hardest classes. We further show competitive
performance vs. few-shot target training, and provide insights into how
descriptive knowledge captures geographical differences.
- Abstract(参考訳): 既存のオブジェクト認識モデルは、設計とコンテキストが大幅に変化するため、様々な地理的シナリオにおいて堅牢性を欠いていることが示されている。
クラス表現は、これらのシフトの下でより正確にオブジェクト概念を反映するように適応する必要がある。
対象地形からのトレーニングデータがない場合,対象カテゴリーの地理的記述的知識を活用してロバスト性を高めることができると仮定する。
この目的のために,地理固有の対象知識に対する大言語モデルの探索の可能性を検討し,クリップビジョン言語モデルを用いて,ゼロショットと学習可能なソフトプロンプトにおける知識の統合について検討する。
特に,地理知識の正規化手法を提案し,地理のソースセットで訓練されたソフトプロンプトが,未知のターゲットセットに一般化されることを保証する。
ヨーロッパからのデータでのみ訓練されたモデルから一般化したDolarStreetは、アフリカからの国では+2.8、最も厳しいクラスでは+4.6である。
さらに,少ない目標訓練に対する競争力を示すとともに,記述的知識が地理的な差異をどのように捉えているかについての知見を提供する。
関連論文リスト
- Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods [62.076647211744564]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。
1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。
GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-01-05T03:43:45Z) - Conditioning Covert Geo-Location (CGL) Detection on Semantic Class
Information [5.660207256468971]
サハらによってCCGL(Covert Geo-Location)検出と呼ばれる潜在的な隠蔽物を特定するタスクが提案された。
セマンティッククラス情報を利用する試みは行われなかった。
本稿では,2つの目標を達成するためのマルチタスク学習に基づくアプローチを提案する。i) 意味クラス情報を持つ特徴の抽出;i) 共通エンコーダの堅牢なトレーニング。
論文 参考訳(メタデータ) (2022-11-27T07:21:59Z) - Geographic Adaptation of Pretrained Language Models [29.81557992080902]
マルチタスク学習環境において,言語モデリングと位置情報予測を併用する中間学習ステップであるジオアダプテーションを導入する。
ジオアダプテーションの有効性は、事前訓練された言語モデルの表現空間を地理的に再現する能力に起因していることを示す。
論文 参考訳(メタデータ) (2022-03-16T11:55:00Z) - Point-Level Region Contrast for Object Detection Pre-Training [147.47349344401806]
本稿では,物体検出作業のための自己教師付き事前学習手法である点レベル領域コントラストを提案する。
提案手法は,異なる領域から個々の点対を直接抽出することにより,コントラスト学習を行う。
領域ごとの集約表現と比較すると,入力領域の品質の変化に対して,我々のアプローチはより堅牢である。
論文 参考訳(メタデータ) (2022-02-09T18:56:41Z) - Interpretable Semantic Photo Geolocalization [4.286838964398275]
ジオローカリゼーションモデルの解釈性を改善するために,2つのコントリビューションを提案する。
本稿では,予測の理解を直感的に向上させる新しいセマンティックパーティショニング手法を提案する。
また,ある予測のための意味的視覚概念の重要性を評価するための新しい指標も導入する。
論文 参考訳(メタデータ) (2021-04-30T13:28:18Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。