論文の概要: Zero-Shot Compositional Concept Learning
- arxiv url: http://arxiv.org/abs/2107.05176v1
- Date: Mon, 12 Jul 2021 03:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 23:49:20.618647
- Title: Zero-Shot Compositional Concept Learning
- Title(参考訳): ゼロショット合成概念学習
- Authors: Guangyue Xu, Parisa Kordjamshidi, Joyce Y. Chai
- Abstract要約: 本稿では,エピソードベース・クロスアテンション(EpiCA)ネットワークを提案する。
EpiCAは、概念と視覚情報を関連付けるためにクロスアテンションをベースとし、ゲートプーリング層を使用して、画像と概念の両方のコンテキスト化された表現を構築する。
広範に使われているゼロショット合成学習(ZSCL)ベンチマークの実験は、モデルの有効性を実証した。
- 参考スコア(独自算出の注目度): 10.108857371774977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the problem of recognizing compositional
attribute-object concepts within the zero-shot learning (ZSL) framework. We
propose an episode-based cross-attention (EpiCA) network which combines merits
of cross-attention mechanism and episode-based training strategy to recognize
novel compositional concepts. Firstly, EpiCA bases on cross-attention to
correlate concept-visual information and utilizes the gated pooling layer to
build contextualized representations for both images and concepts. The updated
representations are used for a more in-depth multi-modal relevance calculation
for concept recognition. Secondly, a two-phase episode training strategy,
especially the transductive phase, is adopted to utilize unlabeled test
examples to alleviate the low-resource learning problem. Experiments on two
widely-used zero-shot compositional learning (ZSCL) benchmarks have
demonstrated the effectiveness of the model compared with recent approaches on
both conventional and generalized ZSCL settings.
- Abstract(参考訳): 本稿では,ゼロショット学習(ZSL)フレームワークにおける構成属性オブジェクト概念の認識の問題について検討する。
エピソードベースのクロスアテンション(EpiCA)ネットワークを提案する。これは、エピソードベースのトレーニング戦略とクロスアテンション機構の利点を組み合わせて、新しい構成概念を認識する。
第一に、EpiCAは概念と視覚情報を関連付けるためにクロスアテンションをベースとし、ゲートプーリング層を使用して画像と概念の両方のコンテキスト化された表現を構築する。
更新された表現は、概念認識のためのより深いマルチモーダル関連計算に使用される。
第二に、2段階のエピソード訓練戦略、特にトランスダクティブフェーズを採用し、ラベルのないテスト例を用いて低リソース学習問題を緩和する。
広範に使われているゼロショット合成学習(ZSCL)ベンチマークの実験は、従来のZSCL設定と一般化されたZSCL設定の最近のアプローチと比較して、モデルの有効性を実証している。
関連論文リスト
- Contextual Interaction via Primitive-based Adversarial Training For Compositional Zero-shot Learning [23.757252768668497]
合成ゼロショット学習(CZSL)は、既知の属性オブジェクト対を通じて新規な合成を識別することを目的としている。
CZSLタスクの最大の課題は、属性とオブジェクトの視覚的プリミティブの間の複雑な相互作用によって導入された大きな相違にある。
本稿では,モデルに依存しない原始的適応学習(PBadv)手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T08:18:30Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Mutual Balancing in State-Object Components for Compositional Zero-Shot
Learning [0.0]
合成ゼロショット学習(CZSL)は、目に見えない状態や物体から未知の合成を認識することを目的としている。
そこで本研究では,CZSLのSTate-Object Components (MUST) におけるMUtual Balanceと呼ばれる新しい手法を提案する。
我々のアプローチは、MIT-States、UT-Zappos、C-GQAといった基本的なCZSLフレームワークと組み合わせることで、最先端のCZSLよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-19T10:21:22Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Siamese Contrastive Embedding Network for Compositional Zero-Shot
Learning [76.13542095170911]
合成ゼロショット学習(CZSL)は、学習中に目に見える状態と対象から形成される見えない構成を認識することを目的としている。
本稿では,未知の合成認識のための新しいSiamese Contrastive Embedding Network(SCEN)を提案する。
提案手法は,3つの挑戦的ベンチマークデータセットに対して,最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-06-29T09:02:35Z) - Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation
for Scene Recognition [64.29650787243443]
本稿では, アクティベーションマップの2次元周波数変換を転送前に提案し, 解析する。
この戦略は、シーン認識などのタスクにおける知識伝達可能性を高める。
我々は、この論文で使われているトレーニングおよび評価フレームワークを、http://www.vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognitionで公開しています。
論文 参考訳(メタデータ) (2022-05-04T11:05:18Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Dual Contrastive Learning for General Face Forgery Detection [64.41970626226221]
本稿では,正と負のペアデータを構成するDCL (Dual Contrastive Learning) という新しい顔偽造検出フレームワークを提案する。
本研究は, 事例内コントラスト学習(Intra-ICL)において, 偽造顔における局所的内容の不整合に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-27T05:44:40Z) - Ontology-based n-ball Concept Embeddings Informing Few-shot Image
Classification [5.247029505708008]
ViOCEは、ニューラルネットワークベースの視覚アーキテクチャに、$n$-ballの概念を組み込む形で、象徴的な知識を統合する。
本稿では,2つの標準ベンチマークにおいて,画像分類のタスクを用いてViOCEを評価し,優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-19T05:35:43Z) - Cross Knowledge-based Generative Zero-Shot Learning Approach with
Taxonomy Regularization [5.280368849852332]
我々は、Cross Knowledge Learning(CKL)スキームとTaxonomy Regularization(TR)を採用したネットワークベースのZSLアプローチを開発する。
CKLは、ZSLにセマンティックとビジュアルの機能を埋め込むための、より関連性の高いセマンティック機能をトレーニングできる。
TRは、生成ネットワークから生成されるより一般化された視覚特徴を持つ見えない画像との交差を著しく改善する。
論文 参考訳(メタデータ) (2021-01-25T04:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。