Fugu-MT 論文翻訳(概要): What Remains of Visual Semantic Embeddings

論文の概要: What Remains of Visual Semantic Embeddings

arxiv url: http://arxiv.org/abs/2107.11991v1
Date: Mon, 26 Jul 2021 06:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-27 22:36:40.505831
Title: What Remains of Visual Semantic Embeddings
Title（参考訳）: ビジュアルセマンティックな埋め込みに残るもの
Authors: Yue Jiao, Jonathon Hare, Adam Pr\"ugel-Bennett
Abstract要約: 標準のImageNetベンチマークにおける構造欠陥を回避するため、ZSLタスクにタイレッドイメージネットの分割を導入する。我々は,ZSLのための統合フレームワークを構築し,コントラスト学習を事前学習とし,セマンティックな情報漏洩を保証している。我々の研究は、意味推論が決定的なZSL設定上で視覚的セマンティック埋め込みモデルを評価するのに公平である。
参考スコア（独自算出の注目度）: 0.618778092044887
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero shot learning (ZSL) has seen a surge in interest over the decade for its tight links with the mechanism making young children recognize novel objects. Although different paradigms of visual semantic embedding models are designed to align visual features and distributed word representations, it is unclear to what extent current ZSL models encode semantic information from distributed word representations. In this work, we introduce the split of tiered-ImageNet to the ZSL task, in order to avoid the structural flaws in the standard ImageNet benchmark. We build a unified framework for ZSL with contrastive learning as pre-training, which guarantees no semantic information leakage and encourages linearly separable visual features. Our work makes it fair for evaluating visual semantic embedding models on a ZSL setting in which semantic inference is decisive. With this framework, we show that current ZSL models struggle with encoding semantic relationships from word analogy and word hierarchy. Our analyses provide motivation for exploring the role of context language representations in ZSL tasks.
Abstract（参考訳）: ゼロショットラーニング(ZSL)は、子どもたちに新しい物体を認識させるメカニズムと密接に結びついているため、この10年間で関心が高まっている。視覚的セマンティック埋め込みモデルの異なるパラダイムは、視覚的特徴と分散語表現を整列するように設計されているが、現在のZSLモデルが分散語表現から意味情報をエンコードする範囲は不明確である。本研究では,標準画像Netベンチマークにおける構造欠陥を回避するため,ZSLタスクにタイレッドイメージネットの分割を導入する。我々は,zslを事前学習として統合したフレームワークを構築し,セマンティクス情報漏洩を保証せず,線形分離可能な視覚特徴を奨励する。本研究は,意味推論が決定的なZSL上での視覚的セマンティック埋め込みモデルの評価に有効である。このフレームワークでは、現在のzslモデルでは単語アナロジーと単語階層から意味関係をエンコードするのに苦労している。本分析は,ZSLタスクにおける文脈言語表現の役割を探求する動機を提供する。

関連論文リスト

SVIP: Semantically Contextualized Visual Patches for Zero-Shot Learning [38.507994878183474]
ゼロショット学習(ZSL)のための意味的文脈付き視覚パッチ(SVIP)を導入する。本稿では,入力空間における意味的無関係なパッチを事前に学習する自己教師付きパッチ選択機構を提案する。 SVIPは、より解釈可能でセマンティックにリッチな特徴表現を提供しながら、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-13T10:59:51Z)
ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning [28.52949450389388]
Zero-shot Learning (ZSL) は、目に見えないクラスから見えないクラスに意味的な知識を移すことによって、目に見えないクラスを認識することを目的としている。我々はZSLを前進させるためにZeroMambaと呼ばれるパラメータ効率の高いZSLフレームワークを提案する。 ZeroMambaは、SLP(Semantic-Aware Local Projection)、GRL(Global Representation Learning)、Semantic Fusion(SeF)の3つの重要なコンポーネントで構成されている。
論文参考訳（メタデータ） (2024-08-27T08:39:47Z)
Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。 ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文参考訳（メタデータ） (2024-04-11T12:59:38Z)
Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文参考訳（メタデータ） (2023-05-23T18:00:22Z)
I2DFormer: Learning Image to Document Attention for Zero-Shot Image Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文参考訳（メタデータ） (2022-09-21T12:18:31Z)
VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文参考訳（メタデータ） (2022-03-20T03:49:02Z)
Language Models as Zero-shot Visual Semantic Learners [0.618778092044887]
本研究では,文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。文脈表現を持つVSEPは、複雑な場面における単語レベルのオブジェクト表現を合成ゼロショット学習者として区別することができる。言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れることがわかった。
論文参考訳（メタデータ） (2021-07-26T08:22:55Z)
Learning Robust Visual-semantic Mapping for Zero-shot Learning [8.299945169799795]
ZSL(Zero-shot Learning)の重要な構成要素の1つである意味的特徴空間の完全強化に注力する。 ZSLでは、視覚的特徴空間と意味的特徴空間の間のマッピング関数をラベル付きクラス例でトレーニングするのが一般的である。このようなパラダイムでは、ZSLモデルはマッピング関数を構築および再利用する際にドメインシフトの問題に容易に苦しむ可能性がある。
論文参考訳（メタデータ） (2021-04-12T17:39:38Z)
Information Bottleneck Constrained Latent Bidirectional Embedding for Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文参考訳（メタデータ） (2020-09-16T03:54:12Z)
Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文参考訳（メタデータ） (2020-03-08T03:05:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。