論文の概要: Focus-Consistent Multi-Level Aggregation for Compositional Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2408.17083v1
- Date: Fri, 30 Aug 2024 08:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:09:30.425645
- Title: Focus-Consistent Multi-Level Aggregation for Compositional Zero-Shot Learning
- Title(参考訳): 合成ゼロショット学習のためのフォーカス一貫性のあるマルチレベルアグリゲーション
- Authors: Fengyuan Dai, Siteng Huang, Min Zhang, Biao Gong, Donglin Wang,
- Abstract要約: 画像の内容に基づいて各ブランチ毎にパーソナライズされた特徴を生成する新しい手法を提案する。
本手法では,MFA(Multi-Level Feature Aggregation)モジュールを組み込んで,画像の内容に基づいて各ブランチのパーソナライズされた特徴を生成する。
- 参考スコア(独自算出の注目度): 34.133790456747626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To transfer knowledge from seen attribute-object compositions to recognize unseen ones, recent compositional zero-shot learning (CZSL) methods mainly discuss the optimal classification branches to identify the elements, leading to the popularity of employing a three-branch architecture. However, these methods mix up the underlying relationship among the branches, in the aspect of consistency and diversity. Specifically, consistently providing the highest-level features for all three branches increases the difficulty in distinguishing classes that are superficially similar. Furthermore, a single branch may focus on suboptimal regions when spatial messages are not shared between the personalized branches. Recognizing these issues and endeavoring to address them, we propose a novel method called Focus-Consistent Multi-Level Aggregation (FOMA). Our method incorporates a Multi-Level Feature Aggregation (MFA) module to generate personalized features for each branch based on the image content. Additionally, a Focus-Consistent Constraint encourages a consistent focus on the informative regions, thereby implicitly exchanging spatial information between all branches. Extensive experiments on three benchmark datasets (UT-Zappos, C-GQA, and Clothing16K) demonstrate that our FOMA outperforms SOTA.
- Abstract(参考訳): 近年の合成ゼロショット学習 (CZSL) 手法は, 属性オブジェクトから知識を伝達し, 特徴を識別するための最適分類法を主に議論している。
しかし、これらの手法は、一貫性と多様性の面において、枝の根底にある関係を混ぜ合わせている。
具体的には、3つのブランチすべてに最高レベルの機能を提供し続けることは、表面的に類似したクラスを区別することの難しさを増大させる。
さらに、単一のブランチは、パーソナライズされたブランチ間で空間メッセージが共有されない場合、最適領域にフォーカスすることができる。
これらの問題を認識し,対処するために,Focus-Consistent Multi-Level Aggregation (FOMA) と呼ばれる新しい手法を提案する。
本手法では,MFA(Multi-Level Feature Aggregation)モジュールを組み込んで,画像の内容に基づいて各ブランチのパーソナライズされた特徴を生成する。
さらに、Focus-Consistent Constraintは情報領域に一貫したフォーカスを奨励し、すべてのブランチ間で空間情報を暗黙的に交換する。
3つのベンチマークデータセット(UT-Zappos, C-GQA, Clothing16K)に対する大規模な実験は、私たちのFOMAがSOTAより優れていることを示している。
関連論文リスト
- Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - SATS: Self-Attention Transfer for Continual Semantic Segmentation [50.51525791240729]
連続的なセマンティックセグメンテーションは、連続的な分類学習と同じ破滅的な忘れの問題に悩まされる。
本研究では,各画像内の要素間の関係について,知識に関連する新しいタイプの情報伝達を提案する。
関係情報は、トランスフォーマースタイルのセグメンテーションモデルにおける自己アテンションマップから有効に得ることができる。
論文 参考訳(メタデータ) (2022-03-15T06:09:28Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - Foreground-Action Consistency Network for Weakly Supervised Temporal
Action Localization [66.66545680550782]
本稿では、FAC-Netというフレームワークを3つのブランチに付加し、クラスワイドフォアグラウンド分類ブランチ、クラス非依存アテンションブランチ、複数インスタンス学習ブランチを提案する。
まず, クラスワイド前景分類部は, 前景の分離を最大化するために, 行動と前景の関係を正規化する。
さらに、クラスに依存しないアテンションブランチと複数のインスタンス学習ブランチが採用され、フォアグラウンドの一貫性を規則化し、意味のあるフォアグラウンドを学ぶのに役立つ。
論文 参考訳(メタデータ) (2021-08-14T12:34:44Z) - Contrastive Multi-Modal Clustering [22.117014300127423]
コントラッシブ・マルチモーダル・クラスタリング(CMMC)を提案する。
CMMCはスケーラビリティに優れ、最先端のマルチモーダルクラスタリング手法よりも優れています。
論文 参考訳(メタデータ) (2021-06-21T15:32:34Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。