論文の概要: Learning the Best Pooling Strategy for Visual Semantic Embedding
- arxiv url: http://arxiv.org/abs/2011.04305v5
- Date: Tue, 6 Jul 2021 14:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:28:27.254694
- Title: Learning the Best Pooling Strategy for Visual Semantic Embedding
- Title(参考訳): 視覚意味埋め込みのための最良のプール戦略を学ぶ
- Authors: Jiacheng Chen, Hexiang Hu, Hao Wu, Yuning Jiang, Changhu Wang
- Abstract要約: 本稿では,GPO(Generalized Pooling Operator)を提案する。
我々は,GPOが常に最高のプーリング戦略を発見し,標準VSEモデルのためのプラグイン・アンド・プレイ機能アグリゲーションモジュールであることを示す。
- 参考スコア(独自算出の注目度): 43.10618053551461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Semantic Embedding (VSE) is a dominant approach for vision-language
retrieval, which aims at learning a deep embedding space such that visual data
are embedded close to their semantic text labels or descriptions. Recent VSE
models use complex methods to better contextualize and aggregate multi-modal
features into holistic embeddings. However, we discover that surprisingly
simple (but carefully selected) global pooling functions (e.g., max pooling)
outperform those complex models, across different feature extractors. Despite
its simplicity and effectiveness, seeking the best pooling function for
different data modality and feature extractor is costly and tedious, especially
when the size of features varies (e.g., text, video). Therefore, we propose a
Generalized Pooling Operator (GPO), which learns to automatically adapt itself
to the best pooling strategy for different features, requiring no manual tuning
while staying effective and efficient. We extend the VSE model using this
proposed GPO and denote it as VSE$\infty$.
Without bells and whistles, VSE$\infty$ outperforms previous VSE methods
significantly on image-text retrieval benchmarks across popular feature
extractors. With a simple adaptation, variants of VSE$\infty$ further
demonstrate its strength by achieving the new state of the art on two
video-text retrieval datasets. Comprehensive experiments and visualizations
confirm that GPO always discovers the best pooling strategy and can be a
plug-and-play feature aggregation module for standard VSE models. Code and
pre-trained models are available at https://vse-infty.github.io.
- Abstract(参考訳): 視覚的セマンティック・エンベディング (VSE) は視覚言語検索において支配的なアプローチであり、視覚的データがセマンティックテキストラベルや記述の近くに埋め込まれるように深い埋め込み空間を学習することを目的としている。
近年のVSEモデルは複雑な手法を用いて、マルチモーダルな特徴を総合的な埋め込みに分解する。
しかし、驚くほど単純な(しかし慎重に選択された)グローバルプーリング関数(例えば、maxプーリング)が、異なる機能抽出器でこれらの複雑なモデルよりも優れていることが分かりました。
その単純さと有効性にもかかわらず、異なるデータモダリティと特徴抽出器のための最高のプール機能を求めるのは、特に機能のサイズが変化する場合(例えば、テキスト、ビデオ)、費用がかかる。
そこで本稿では, 汎用プール演算子 (GPO) を提案し, 有効かつ効率的な手動チューニングを必要とせず, 異なる機能に対して最適なプール戦略に自動的に適応することを学ぶ。
提案した GPO を用いて VSE モデルを拡張し、VSE$\infty$ とする。
ベルとホイッスルがなければ、VSE$\infty$は、一般的な特徴抽出器をまたいだ画像テキスト検索ベンチマークにおいて、以前のVSEメソッドよりも大幅に優れている。
簡単な適応で、VSE$\infty$の変種は、2つのビデオテキスト検索データセット上で、その技術の新たな状態を達成することによって、その強みをさらに示す。
総合的な実験と可視化により、GPOが常に最高のプーリング戦略を発見し、標準VSEモデルのためのプラグイン・アンド・プレイ機能アグリゲーションモジュールになり得ることを確認した。
コードと事前学習されたモデルはhttps://vse-infty.github.ioで入手できる。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - A Deep Features-Based Approach Using Modified ResNet50 and Gradient Boosting for Visual Sentiments Classification [1.2434714657059942]
本研究は,ディープラーニングアルゴリズムと機械学習アルゴリズムの融合を開発する。
改良されたResNet50から深い特徴を抽出するために,多クラス分類のためのDeep Feature-based Methodが使用されている。
グラデーションブースティングアルゴリズムは感情的な内容を含む写真を分類するために使われてきた。
論文 参考訳(メタデータ) (2024-08-15T04:18:40Z) - Rethinking Pre-trained Feature Extractor Selection in Multiple Instance Learning for Whole Slide Image Classification [2.6703221234079946]
複数インスタンス学習(MIL)は、パッチレベルのアノテーションを必要とせずに、ギガピクセル全体のスライド画像(WSI)分類に好まれる方法となっている。
本研究では,3次元のMIL特徴抽出器(事前学習データセット,バックボーンモデル,事前学習手法)を体系的に評価する。
この結果から,堅牢な自己教師付き学習(SSL)手法の選択は,ドメイン内事前学習データセットのみに依存するよりも,パフォーマンスに大きな影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-02T10:34:23Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - ProtoDiv: Prototype-guided Division of Consistent Pseudo-bags for
Whole-slide Image Classification [5.836559246348487]
Pseudo-bag の分割スキームは、しばしば分類性能に欠かせないものであり、探求する価値のあるトピックである。
本稿では,WSI 擬似バッグの分割を誘導するために,バッグプロトタイプを用いた新しいスキーム ProtoDiv を提案する。
論文 参考訳(メタデータ) (2023-04-13T16:27:08Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。