論文の概要: Learning to Evaluate Performance of Multi-modal Semantic Localization
- arxiv url: http://arxiv.org/abs/2209.06515v2
- Date: Thu, 15 Sep 2022 01:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 11:45:47.976918
- Title: Learning to Evaluate Performance of Multi-modal Semantic Localization
- Title(参考訳): マルチモーダル・セマンティクス・ローカライゼーションの性能評価のための学習
- Authors: Zhiqiang Yuan, Wenkai Zhang, Chongyang Li, Zhaoying Pan, Yongqiang
Mao, Jialiang Chen, Shouke Li, Hongqi Wang, and Xian Sun
- Abstract要約: セマンティックローカライゼーション(Semantic Localization、SeLo)とは、テキストなどの意味情報を用いて、大規模リモートセンシング(RS)画像の最も関連性の高い位置を求めるタスクである。
本稿では、この分野を徹底的に研究し、SeLoタスクを進めるためのメトリクスとテストデータの観点から完全なベンチマークを提供する。
- 参考スコア(独自算出の注目度): 9.584659231769416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic localization (SeLo) refers to the task of obtaining the most
relevant locations in large-scale remote sensing (RS) images using semantic
information such as text. As an emerging task based on cross-modal retrieval,
SeLo achieves semantic-level retrieval with only caption-level annotation,
which demonstrates its great potential in unifying downstream tasks. Although
SeLo has been carried out successively, but there is currently no work has
systematically explores and analyzes this urgent direction. In this paper, we
thoroughly study this field and provide a complete benchmark in terms of
metrics and testdata to advance the SeLo task. Firstly, based on the
characteristics of this task, we propose multiple discriminative evaluation
metrics to quantify the performance of the SeLo task. The devised significant
area proportion, attention shift distance, and discrete attention distance are
utilized to evaluate the generated SeLo map from pixel-level and region-level.
Next, to provide standard evaluation data for the SeLo task, we contribute a
diverse, multi-semantic, multi-objective Semantic Localization Testset
(AIR-SLT). AIR-SLT consists of 22 large-scale RS images and 59 test cases with
different semantics, which aims to provide a comprehensive evaluations for
retrieval models. Finally, we analyze the SeLo performance of RS cross-modal
retrieval models in detail, explore the impact of different variables on this
task, and provide a complete benchmark for the SeLo task. We have also
established a new paradigm for RS referring expression comprehension, and
demonstrated the great advantage of SeLo in semantics through combining it with
tasks such as detection and road extraction. The proposed evaluation metrics,
semantic localization testsets, and corresponding scripts have been open to
access at github.com/xiaoyuan1996/SemanticLocalizationMetrics .
- Abstract(参考訳): セマンティックローカライゼーション(Semantic Localization、SeLo)とは、テキストなどの意味情報を用いて、大規模リモートセンシング(RS)画像の最も関連性の高い位置を求めるタスクである。
クロスモーダル検索に基づく新たなタスクとして、セローはキャプションレベルのアノテーションだけでセマンティックレベルの検索を実現し、下流タスクを統合する大きな可能性を示している。
seloは連続して実施されているが、この緊急方向を体系的に探究し分析した成果はない。
本稿では、この分野を徹底的に研究し、SeLoタスクを進めるためのメトリクスとテストデータの観点から完全なベンチマークを提供する。
まず,本課題の特徴に基づき,SeLoタスクの性能を定量化するために,複数の識別評価指標を提案する。
生成したセロマップを画素レベルと領域レベルから評価するために,有意な面積比,注意シフト距離,離散的注意距離を考案した。
次に,SeLoタスクの標準的な評価データを提供するために,多言語多目的セマンティックローカライゼーションテストセット(AIR-SLT)を提案する。
AIR-SLTは22個の大規模なRS画像と59個のテストケースで構成され、検索モデルに対する包括的な評価を提供することを目的としている。
最後に,rsクロスモーダル検索モデルのslo性能を詳細に解析し,このタスクに対する異なる変数の影響を調査し,sloタスクの完全なベンチマークを提供する。
また,表現理解のための新しいパラダイムを構築し,意味論におけるSeLoの利点を,検出や道路抽出といったタスクと組み合わせることで実証した。
提案した評価指標,セマンティックローカライゼーションテストセット,およびそれに対応するスクリプトはgithub.com/xiaoyuan 1996/SemanticLocalizationMetricsで公開されている。
関連論文リスト
- MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。
我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。
以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-11T16:26:18Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - CLIP-Loc: Multi-modal Landmark Association for Global Localization in
Object-based Maps [0.16492989697868893]
本稿では,オブジェクトマップとカメラ画像を用いたグローバルローカライゼーションのためのマルチモーダルデータアソシエーション手法について述べる。
本稿では,自然言語記述によるランドマークのラベル付けと,画像観察と概念的類似性に基づく対応抽出を提案する。
論文 参考訳(メタデータ) (2024-02-08T22:59:12Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot
Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z) - Transferability Metrics for Object Detection [0.0]
Transfer Learningは、既存のトレーニング済みモデルを最大限に活用して、限られたデータシナリオで新しいタスクのパフォーマンスを向上させることを目的としている。
我々は、ROI-Align と TLogME を用いて、転送可能性のメトリクスをオブジェクト検出に拡張する。
我々は,TLogMEが転送性能とロバストな相関を示し,局所的およびグローバルなレベルの特性で他の転送可能性指標より優れていることを示す。
論文 参考訳(メタデータ) (2023-06-27T08:49:31Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Rethinking Object Detection in Retail Stores [55.359582952686175]
そこで我々はLocountと略される新しいタスク、同時にオブジェクトのローカライゼーションとカウントを提案する。
Locountは、関心のあるオブジェクトのグループをインスタンス数でローカライズするアルゴリズムを必要とする。
大規模オブジェクトのローカライズと数えるデータセットを小売店で収集する。
論文 参考訳(メタデータ) (2020-03-18T14:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。