論文の概要: What Remains of Visual Semantic Embeddings
- arxiv url: http://arxiv.org/abs/2107.11991v1
- Date: Mon, 26 Jul 2021 06:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 22:36:40.505831
- Title: What Remains of Visual Semantic Embeddings
- Title(参考訳): ビジュアルセマンティックな埋め込みに残るもの
- Authors: Yue Jiao, Jonathon Hare, Adam Pr\"ugel-Bennett
- Abstract要約: 標準のImageNetベンチマークにおける構造欠陥を回避するため、ZSLタスクにタイレッドイメージネットの分割を導入する。
我々は,ZSLのための統合フレームワークを構築し,コントラスト学習を事前学習とし,セマンティックな情報漏洩を保証している。
我々の研究は、意味推論が決定的なZSL設定上で視覚的セマンティック埋め込みモデルを評価するのに公平である。
- 参考スコア(独自算出の注目度): 0.618778092044887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero shot learning (ZSL) has seen a surge in interest over the decade for its
tight links with the mechanism making young children recognize novel objects.
Although different paradigms of visual semantic embedding models are designed
to align visual features and distributed word representations, it is unclear to
what extent current ZSL models encode semantic information from distributed
word representations. In this work, we introduce the split of tiered-ImageNet
to the ZSL task, in order to avoid the structural flaws in the standard
ImageNet benchmark. We build a unified framework for ZSL with contrastive
learning as pre-training, which guarantees no semantic information leakage and
encourages linearly separable visual features. Our work makes it fair for
evaluating visual semantic embedding models on a ZSL setting in which semantic
inference is decisive. With this framework, we show that current ZSL models
struggle with encoding semantic relationships from word analogy and word
hierarchy. Our analyses provide motivation for exploring the role of context
language representations in ZSL tasks.
- Abstract(参考訳): ゼロショットラーニング(ZSL)は、子どもたちに新しい物体を認識させるメカニズムと密接に結びついているため、この10年間で関心が高まっている。
視覚的セマンティック埋め込みモデルの異なるパラダイムは、視覚的特徴と分散語表現を整列するように設計されているが、現在のZSLモデルが分散語表現から意味情報をエンコードする範囲は不明確である。
本研究では,標準画像Netベンチマークにおける構造欠陥を回避するため,ZSLタスクにタイレッドイメージネットの分割を導入する。
我々は,zslを事前学習として統合したフレームワークを構築し,セマンティクス情報漏洩を保証せず,線形分離可能な視覚特徴を奨励する。
本研究は,意味推論が決定的なZSL上での視覚的セマンティック埋め込みモデルの評価に有効である。
このフレームワークでは、現在のzslモデルでは単語アナロジーと単語階層から意味関係をエンコードするのに苦労している。
本分析は,ZSLタスクにおける文脈言語表現の役割を探求する動機を提供する。
関連論文リスト
- ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning [28.52949450389388]
Zero-shot Learning (ZSL) は、目に見えないクラスから見えないクラスに意味的な知識を移すことによって、目に見えないクラスを認識することを目的としている。
我々はZSLを前進させるためにZeroMambaと呼ばれるパラメータ効率の高いZSLフレームワークを提案する。
ZeroMambaは、SLP(Semantic-Aware Local Projection)、GRL(Global Representation Learning)、Semantic Fusion(SeF)の3つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-08-27T08:39:47Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Language Models as Zero-shot Visual Semantic Learners [0.618778092044887]
本研究では,文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。
文脈表現を持つVSEPは、複雑な場面における単語レベルのオブジェクト表現を合成ゼロショット学習者として区別することができる。
言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れることがわかった。
論文 参考訳(メタデータ) (2021-07-26T08:22:55Z) - Learning Robust Visual-semantic Mapping for Zero-shot Learning [8.299945169799795]
ZSL(Zero-shot Learning)の重要な構成要素の1つである意味的特徴空間の完全強化に注力する。
ZSLでは、視覚的特徴空間と意味的特徴空間の間のマッピング関数をラベル付きクラス例でトレーニングするのが一般的である。
このようなパラダイムでは、ZSLモデルはマッピング関数を構築および再利用する際にドメインシフトの問題に容易に苦しむ可能性がある。
論文 参考訳(メタデータ) (2021-04-12T17:39:38Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。