論文の概要: Decomposed Soft Prompt Guided Fusion Enhancing for Compositional
Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2211.10681v1
- Date: Sat, 19 Nov 2022 12:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:53:51.694143
- Title: Decomposed Soft Prompt Guided Fusion Enhancing for Compositional
Zero-Shot Learning
- Title(参考訳): 合成ゼロショット学習のための分解ソフトプロンプト誘導核融合
- Authors: Xiaocheng Lu, Ziming Liu, Song Guo, Jingcai Guo
- Abstract要約: 本稿では、視覚言語モデル(VLM)を組み込んで、不明瞭な合成認識を実現することによって、DFSP(Decomposed Fusion with Soft Prompt)1という新しいフレームワークを提案する。
具体的には、DFSPは学習可能なソフトプロンプトと状態とオブジェクトのベクトル結合を構築し、それらの結合表現を確立する。
さらに、言語とイメージブランチの間にクロスモーダル融合モジュールが設計されており、画像の特徴ではなく、言語機能間で状態とオブジェクトを分解する。
- 参考スコア(独自算出の注目度): 15.406125901927004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional Zero-Shot Learning (CZSL) aims to recognize novel concepts
formed by known states and objects during training. Existing methods either
learn the combined state-object representation, challenging the generalization
of unseen compositions, or design two classifiers to identify state and object
separately from image features, ignoring the intrinsic relationship between
them. To jointly eliminate the above issues and construct a more robust CZSL
system, we propose a novel framework termed Decomposed Fusion with Soft Prompt
(DFSP)1, by involving vision-language models (VLMs) for unseen composition
recognition. Specifically, DFSP constructs a vector combination of learnable
soft prompts with state and object to establish the joint representation of
them. In addition, a cross-modal decomposed fusion module is designed between
the language and image branches, which decomposes state and object among
language features instead of image features. Notably, being fused with the
decomposed features, the image features can be more expressive for learning the
relationship with states and objects, respectively, to improve the response of
unseen compositions in the pair space, hence narrowing the domain gap between
seen and unseen sets. Experimental results on three challenging benchmarks
demonstrate that our approach significantly outperforms other state-of-the-art
methods by large margins.
- Abstract(参考訳): 合成ゼロショット学習(CZSL)は、学習中に既知の状態や物体によって形成される新しい概念を認識することを目的としている。
既存の方法は、組み合わせた状態オブジェクト表現を学習し、目に見えない合成の一般化に挑戦するか、2つの分類器を設計し、画像の特徴から状態とオブジェクトを別々に識別し、それら間の本質的な関係を無視している。
上記の問題を共同で排除し、より堅牢なCZSLシステムを構築するために、視覚言語モデル(VLM)を組み込んで、ソフトプロンプトによる分解融合(DFSP)1(Decomposed Fusion with Soft Prompt)という新しいフレームワークを提案する。
具体的には、DFSPは学習可能なソフトプロンプトと状態とオブジェクトのベクトル結合を構築し、それらの結合表現を確立する。
さらに、言語とイメージブランチ間でクロスモーダル分解型融合モジュールが設計されており、イメージ機能ではなく、言語機能の中で状態とオブジェクトを分解する。
特に、分解された特徴と融合することにより、画像特徴は、それぞれ状態とオブジェクトの関係を学習し、ペア空間における見えざる組成の応答を改善し、見るものと見えない集合の間のドメインギャップを狭めることができる。
3つの難解なベンチマークの実験結果は、我々のアプローチが他の最先端の手法を大きく上回っていることを示している。
関連論文リスト
- BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [49.919635694894204]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。
本稿では,複数のプリミティブ・シェアリング・コンポジションを入力とし,これらのコンポジションにまたがって一般化されるような不整合プリミティブ・コンポジションを制約するクロス・コンポジション・コンストラクション・ディエンタングルメントの解を提案する。
論文 参考訳(メタデータ) (2024-08-19T08:23:09Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning [37.445883075993414]
近年のコンポジションゼロショット学習 (CZSL) 法は, コンポジションオブジェクト対にのみトレーニング可能なプロンプトを構築することで, 事前学習された視覚言語モデル (VLM) に適応している。
CZSLモデルのための新しいパラダイムを提案し、状態、対象、構成を協調的にモデル化する3つの識別分岐(Multi-Path)を確立する。
提案手法は,クローズドワールドとオープンワールドの両設定において,既存の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-27T14:10:26Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Siamese Contrastive Embedding Network for Compositional Zero-Shot
Learning [76.13542095170911]
合成ゼロショット学習(CZSL)は、学習中に目に見える状態と対象から形成される見えない構成を認識することを目的としている。
本稿では,未知の合成認識のための新しいSiamese Contrastive Embedding Network(SCEN)を提案する。
提案手法は,3つの挑戦的ベンチマークデータセットに対して,最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-06-29T09:02:35Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。