論文の概要: FlowComposer: Composable Flows for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2603.16641v1
- Date: Tue, 17 Mar 2026 15:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.359639
- Title: FlowComposer: Composable Flows for Compositional Zero-Shot Learning
- Title(参考訳): FlowComposer: 合成ゼロショット学習のための構成可能なフロー
- Authors: Zhenqi He, Lin Li, Long Chen,
- Abstract要約: 合成ゼロショット学習(CZSL)は、見知らぬペアから学んだプリミティブを再結合することによって、見つからない属性オブジェクトの合成を認識することを目的としている。
視覚言語モデル(VLM)に基づく最近のCZSL法は、一般的にパラメータ効率の細かいチューニング(PEFT)を採用する。
FlowComposerは2つの原始的なフローを学習し、属性やオブジェクトテキストの埋め込みに対して視覚的特徴を伝達するモデルに依存しないフレームワークである。
- 参考スコア(独自算出の注目度): 10.977642730831361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional zero-shot learning (CZSL) aims to recognize unseen attribute-object compositions by recombining primitives learned from seen pairs. Recent CZSL methods built on vision-language models (VLMs) typically adopt parameter-efficient fine-tuning (PEFT). They apply visual disentanglers for decomposition and manipulate token-level prompts or prefixes to encode compositions. However, such PEFT-based designs suffer from two fundamental limitations: (1) Implicit Composition Construction, where composition is realized only via token concatenation or branch-wise prompt tuning rather than an explicit operation in the embedding space; (2) Remained Feature Entanglement, where imperfect disentanglement leaves attribute, object, and composition features mutually contaminated. Together, these issues limit the generalization ability of current CZSL models. In this paper, we are the first to systematically study flow matching for CZSL and introduce FlowComposer, a model-agnostic framework that learns two primitive flows to transport visual features toward attribute and object text embeddings, and a learnable Composer that explicitly fuses their velocity fields into a composition flow. To exploit the inevitable residual entanglement, we further devise a leakage-guided augmentation scheme that reuses leaked features as auxiliary signals. We thoroughly evaluate FlowComposer on three public CZSL benchmarks by integrating it as a plug-and-play component into various baselines, consistently achieving significant improvements.
- Abstract(参考訳): 合成ゼロショット学習(CZSL)は、見知らぬペアから学んだプリミティブを再結合することによって、見つからない属性オブジェクトの合成を認識することを目的としている。
近年,視覚言語モデル(VLM)上に構築されているCZSL法では,パラメータ効率のよい微調整(PEFT)が一般的である。
コンポジションをエンコードするためにトークンレベルのプロンプトやプレフィックスを操作する。
しかし, PEFT をベースとした設計では,(1) トークンの連結や,(2) 組み込み空間における明示的な操作よりも,構成を限定的に実現したインシシシブ・コンポジション・コンストラクション・コンストラクション・コンストラクション・コンストラクション, (2) 不完全なアンタングルの属性, オブジェクト, コンストラクションが相互に汚染された残留特徴エンタングルメント, という2つの基本的制約が課されている。
これらの問題により、現在のCZSLモデルの一般化能力は制限される。
本稿では,CZSLのフローマッチングを体系的に研究し,モデルに依存しない2つのフローを学習して属性やオブジェクトテキストの埋め込みに向けて視覚的特徴を伝達するFlowComposerと,その速度場を合成フローに明示的に融合する学習可能なComperを紹介する。
必然的に残される絡み合いを生かして,漏洩した特徴を補助信号として再利用する漏出誘導拡張方式をさらに考案する。
プラグイン・アンド・プレイコンポーネントとして様々なベースラインに統合することで,3つの公開CZSLベンチマーク上でFlowComposerを徹底的に評価し,一貫した改善を実現した。
関連論文リスト
- Compositional Zero-Shot Learning with Contextualized Cues and Adaptive Contrastive Training [17.893694262999826]
本稿では,コンポジションゼロショット学習(CZSL)における属性とオブジェクト(ULAO)の理解とリンクに関する新しい枠組みを紹介する。
ULAOは2つの革新的なモジュールから構成されている。理解属性とオブジェクト(UAO)モジュールは、逐次原始予測によって原始的理解を改善し、認識されたオブジェクトを属性分類の文脈的ヒントとして活用する。
Linking Attributes and Objects (LAO)モジュールは、調整されたハードネガティブ生成と適応的損失調整を含む新しいコントラスト学習戦略を通じて、属性オブジェクトのリンク理解を改善する。
論文 参考訳(メタデータ) (2024-12-10T03:41:20Z) - Graph-guided Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [54.08741382593959]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。
異なる構成にまたがる一般的な非絡み合った原始的特徴を学ぶことは困難である。
本稿では,複数のプリミティブ共有合成を入力として利用するクロスコンポジション特徴分散の解を提案する。
論文 参考訳(メタデータ) (2024-08-19T08:23:09Z) - CSCNET: Class-Specified Cascaded Network for Compositional Zero-Shot
Learning [62.090051975043544]
属性とオブジェクト(A-O)の絡み合いは、合成ゼロショット学習(CZSL)の基本的かつ重要な問題である
CZSL(Class-specified Cascaded Network, CSCNet)のための新しいA-O不整合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T14:18:41Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - KG-SP: Knowledge Guided Simple Primitives for Open World Compositional
Zero-Shot Learning [52.422873819371276]
オープンワールドコンポジションゼロショット学習(OW-CZSL)の目的は、画像中の状態とオブジェクトの合成を認識することである。
ここでは、単純なCZSLベースラインを再検討し、プリミティブ、すなわち状態とオブジェクトを独立して予測する。
出力空間から不可能な構成を除去するために, 外部知識を用いて各構成の有効性を推定する。
我々のモデルであるKG-SPはOW-CZSLとpCZSLの両方で技術の状態を達成する。
論文 参考訳(メタデータ) (2022-05-13T17:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。