論文の概要: What Remains of Visual Semantic Embeddings
- arxiv url: http://arxiv.org/abs/2107.11991v1
- Date: Mon, 26 Jul 2021 06:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 22:36:40.505831
- Title: What Remains of Visual Semantic Embeddings
- Title(参考訳): ビジュアルセマンティックな埋め込みに残るもの
- Authors: Yue Jiao, Jonathon Hare, Adam Pr\"ugel-Bennett
- Abstract要約: 標準のImageNetベンチマークにおける構造欠陥を回避するため、ZSLタスクにタイレッドイメージネットの分割を導入する。
我々は,ZSLのための統合フレームワークを構築し,コントラスト学習を事前学習とし,セマンティックな情報漏洩を保証している。
我々の研究は、意味推論が決定的なZSL設定上で視覚的セマンティック埋め込みモデルを評価するのに公平である。
- 参考スコア(独自算出の注目度): 0.618778092044887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero shot learning (ZSL) has seen a surge in interest over the decade for its
tight links with the mechanism making young children recognize novel objects.
Although different paradigms of visual semantic embedding models are designed
to align visual features and distributed word representations, it is unclear to
what extent current ZSL models encode semantic information from distributed
word representations. In this work, we introduce the split of tiered-ImageNet
to the ZSL task, in order to avoid the structural flaws in the standard
ImageNet benchmark. We build a unified framework for ZSL with contrastive
learning as pre-training, which guarantees no semantic information leakage and
encourages linearly separable visual features. Our work makes it fair for
evaluating visual semantic embedding models on a ZSL setting in which semantic
inference is decisive. With this framework, we show that current ZSL models
struggle with encoding semantic relationships from word analogy and word
hierarchy. Our analyses provide motivation for exploring the role of context
language representations in ZSL tasks.
- Abstract(参考訳): ゼロショットラーニング(ZSL)は、子どもたちに新しい物体を認識させるメカニズムと密接に結びついているため、この10年間で関心が高まっている。
視覚的セマンティック埋め込みモデルの異なるパラダイムは、視覚的特徴と分散語表現を整列するように設計されているが、現在のZSLモデルが分散語表現から意味情報をエンコードする範囲は不明確である。
本研究では,標準画像Netベンチマークにおける構造欠陥を回避するため,ZSLタスクにタイレッドイメージネットの分割を導入する。
我々は,zslを事前学習として統合したフレームワークを構築し,セマンティクス情報漏洩を保証せず,線形分離可能な視覚特徴を奨励する。
本研究は,意味推論が決定的なZSL上での視覚的セマンティック埋め込みモデルの評価に有効である。
このフレームワークでは、現在のzslモデルでは単語アナロジーと単語階層から意味関係をエンコードするのに苦労している。
本分析は,ZSLタスクにおける文脈言語表現の役割を探求する動機を提供する。
関連論文リスト
- Prompting Language-Informed Distribution for Compositional Zero-Shot
Learning [80.29186197773636]
合成ゼロショット学習(CZSL)タスクは、目に見えない視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Language Models as Zero-shot Visual Semantic Learners [0.618778092044887]
本研究では,文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。
文脈表現を持つVSEPは、複雑な場面における単語レベルのオブジェクト表現を合成ゼロショット学習者として区別することができる。
言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れることがわかった。
論文 参考訳(メタデータ) (2021-07-26T08:22:55Z) - Learning Robust Visual-semantic Mapping for Zero-shot Learning [8.299945169799795]
ZSL(Zero-shot Learning)の重要な構成要素の1つである意味的特徴空間の完全強化に注力する。
ZSLでは、視覚的特徴空間と意味的特徴空間の間のマッピング関数をラベル付きクラス例でトレーニングするのが一般的である。
このようなパラダイムでは、ZSLモデルはマッピング関数を構築および再利用する際にドメインシフトの問題に容易に苦しむ可能性がある。
論文 参考訳(メタデータ) (2021-04-12T17:39:38Z) - Zero-Shot Learning Based on Knowledge Sharing [0.0]
Zero-Shot Learning(ZSL)は、ごくわずかなトレーニングデータで分類問題を解決することを目的とした新しい研究です。
本稿では,意味的特徴の表現を充実させるために,知識共有(KS)を導入する。
KSをベースとして,実際の視覚特徴に非常に近い意味的特徴から擬似視覚特徴を生成するために,生成的対向ネットワークを適用した。
論文 参考訳(メタデータ) (2021-02-26T06:43:29Z) - Transductive Zero-Shot Learning using Cross-Modal CycleGAN [20.909848268680356]
Computer Visionでは、ゼロショット学習(ZSL)は、未確認のクラスを分類することを目的としている。
我々は、ImageNet T-ZSLタスクにおいて、Cross-Modal CycleGANモデル(CM-GAN)の有効性を示す。
我々は,MS COCOにおけるゼロショット文対画像マッチングという新しいタスクを提案する。
論文 参考訳(メタデータ) (2020-11-13T10:37:29Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z) - Leveraging Seen and Unseen Semantic Relationships for Generative
Zero-Shot Learning [14.277015352910674]
新たな意味正規化損失(SR-Loss)を取り入れた知識伝達を明示的に行う生成モデルを提案する。
7つのベンチマークデータセットの実験は、従来の最先端アプローチと比較してLsrGANの優位性を示している。
論文 参考訳(メタデータ) (2020-07-19T01:25:53Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。