論文の概要: Semantically Grounded Visual Embeddings for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2201.00577v1
- Date: Mon, 3 Jan 2022 10:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 17:49:17.530245
- Title: Semantically Grounded Visual Embeddings for Zero-Shot Learning
- Title(参考訳): ゼロショット学習のための逐次接地型ビジュアル埋め込み
- Authors: Shah Nawaz, Jacopo Cavazza, Alessio Del Bue
- Abstract要約: 本稿では,2ストリームネットワークを用いた共同画像とテキストモデルをプロキシタスクで計算することにより,意味的基盤とリッチな視覚情報を学習することを提案する。
ゼロショット学習のためのジョイント埋め込みと呼ばれる手法を,いくつかのベンチマークデータセットで評価した。
- 参考スコア(独自算出の注目度): 17.86691047421871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot learning methods rely on fixed visual and semantic embeddings,
extracted from independent vision and language models, both pre-trained for
other large-scale tasks. This is a weakness of current zero-shot learning
frameworks as such disjoint embeddings fail to adequately associate visual and
textual information to their shared semantic content. Therefore, we propose to
learn semantically grounded and enriched visual information by computing a
joint image and text model with a two-stream network on a proxy task. To
improve this alignment between image and textual representations, provided by
attributes, we leverage ancillary captions to provide grounded semantic
information. Our method, dubbed joint embeddings for zero-shot learning is
evaluated on several benchmark datasets, improving the performance of existing
state-of-the-art methods in both standard ($+1.6$\% on aPY, $+2.6\%$ on FLO)
and generalized ($+2.1\%$ on AWA$2$, $+2.2\%$ on CUB) zero-shot recognition.
- Abstract(参考訳): ゼロショット学習法は、独立した視覚と言語モデルから抽出された固定された視覚と意味の埋め込みに依存し、どちらも他の大規模タスクのために事前訓練されている。
これは、現在のゼロショット学習フレームワークの弱点であり、このような非結合な埋め込みは、視覚的およびテキスト的情報を共有セマンティックコンテンツと適切に関連付けることができない。
そこで本稿では,プロキシタスク上で2ストリームネットワークを用いた共同画像とテキストモデルを計算し,セマンティックグラウンドとリッチな視覚情報について学習する。
属性によって提供される画像とテキストの表現のアライメントを改善するために,アシラリーキャプションを活用し,基礎となるセマンティック情報を提供する。
提案手法は, ゼロショット学習のためのジョイント埋め込みをいくつかのベンチマークデータセットで評価し, 既存の最先端手法を標準で+1.6$\%(aPYで+2.6\%, FLOで$2.1\%) と一般化した+2.1\%(AWAで+2.2\%, CUBで$2.2\%) の両方で評価した。
関連論文リスト
- Visual-Semantic Decomposition and Partial Alignment for Document-based Zero-Shot Learning [14.77066147494556]
本稿では,文書や画像から多視点セマンティック概念を抽出し,概念全体ではなくマッチングを整合させる新しいネットワークを提案する。
我々は、文書ベースのゼロショット学習のための3つの標準ベンチマークにおいて、2つの文書ソースにおける最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2024-07-22T13:15:04Z) - A Simple Framework for Open-Vocabulary Zero-Shot Segmentation [36.01531912271202]
SimZSSはオープン語彙のZero-Shotセグメンテーションのためのフレームワークである。
テキストと言語知識の離散的な性質を利用して、字幕内の局所的な概念をピンポイントする。
SimZSSは,8つのベンチマークデータセットのうち7つについて,15分以内で最先端の結果を達成している。
論文 参考訳(メタデータ) (2024-06-23T11:57:08Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。
UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文 参考訳(メタデータ) (2022-04-07T17:34:51Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。