論文の概要: Alignment-Uniformity aware Representation Learning for Zero-shot Video
Classification
- arxiv url: http://arxiv.org/abs/2203.15381v1
- Date: Tue, 29 Mar 2022 09:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 01:59:19.218119
- Title: Alignment-Uniformity aware Representation Learning for Zero-shot Video
Classification
- Title(参考訳): ゼロショット映像分類のためのアライメント一様性を考慮した表現学習
- Authors: Shi Pu and Kaili Zhao and Mao Zheng
- Abstract要約: 本稿では,目に見えるクラスと目に見えないクラスの両方の表現に対して,アライメントと均一性を保ったエンドツーエンドフレームワークを提案する。
実験の結果,UCF101では28.1%,HMDB51では27.0%,SOTAでは28.1%が有意に向上した。
- 参考スコア(独自算出の注目度): 3.6954802719347413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most methods tackle zero-shot video classification by aligning
visual-semantic representations within seen classes, which limits
generalization to unseen classes. To enhance model generalizability, this paper
presents an end-to-end framework that preserves alignment and uniformity
properties for representations on both seen and unseen classes. Specifically,
we formulate a supervised contrastive loss to simultaneously align
visual-semantic features (i.e., alignment) and encourage the learned features
to distribute uniformly (i.e., uniformity). Unlike existing methods that only
consider the alignment, we propose uniformity to preserve maximal-info of
existing features, which improves the probability that unobserved features fall
around observed data. Further, we synthesize features of unseen classes by
proposing a class generator that interpolates and extrapolates the features of
seen classes. Besides, we introduce two metrics, closeness and dispersion, to
quantify the two properties and serve as new measurements of model
generalizability. Experiments show that our method significantly outperforms
SoTA by relative improvements of 28.1% on UCF101 and 27.0% on HMDB51. Code is
available.
- Abstract(参考訳): ほとんどの手法は、目に見えないクラスに一般化を制限する視覚意味表現をアライメントすることで、ゼロショットビデオ分類に取り組む。
モデル一般化性を高めるため,両クラスにおける表現のアライメントと一様性を保持するエンドツーエンドフレームワークを提案する。
具体的には、教師付きコントラスト損失を定式化し、視覚的意味的特徴(すなわち、アライメント)を同時に整列させ、学習した特徴を均一に分配することを奨励する。
このアライメントのみを考慮した既存手法とは異なり、既存の特徴の最大インフォ保存のための均一性を提案し、観測されたデータに観測されない特徴が出現する確率を改善する。
さらに,見掛けたクラスの特徴を補間し外挿するクラスジェネレータを提案することで,見受けられないクラスの特徴を合成する。
さらに, 近接性と分散性という2つの指標を導入し, 2つの特性を定量化し, モデル一般化可能性の新しい尺度として機能する。
実験の結果,UCF101では28.1%,HMDB51では27.0%,SOTAでは28.1%が有意に向上した。
コードは利用可能。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Uniformly Distributed Category Prototype-Guided Vision-Language
Framework for Long-Tail Recognition [11.110124286206467]
本研究では,データ不均衡に起因する特徴空間バイアスを効果的に緩和する,一様に分類されたプロトタイプ誘導型視覚言語フレームワークを提案する。
提案手法は,長期学習作業における従来の視覚言語手法よりも大きなマージンを達成し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-08-24T03:21:28Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Concurrent Discrimination and Alignment for Self-Supervised Feature
Learning [52.213140525321165]
既存の自己指導型学習手法は,(1)どの特徴が分離されるべきかを明確に示すこと,あるいは(2)どの特徴が閉じるべきかを明確に示すこと,のいずれかのプリテキストタスクを用いて学習する。
本研究では,識別・調整手法の正の側面を組み合わせて,上記の課題に対処するハイブリッド手法を設計する。
本手法は,識別的予測タスクによってそれぞれ反発とアトラクションのメカニズムを明確に特定し,ペアビュー間の相互情報を同時に最大化する。
確立された9つのベンチマーク実験により,提案モデルが自己監督と移動の既成結果より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-08-19T09:07:41Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Entropy-Based Uncertainty Calibration for Generalized Zero-Shot Learning [49.04790688256481]
一般化ゼロショット学習(GZSL)の目的は、目に見えないクラスと見えないクラスの両方を認識することである。
ほとんどのGZSLメソッドは、通常、見えないクラスの意味情報から視覚表現を合成することを学ぶ。
本論文では,三重項損失を持つ2重変分オートエンコーダを利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T05:21:27Z) - Bidirectional Mapping Coupled GAN for Generalized Zero-Shot Learning [7.22073260315824]
双方向マッピングに基づく一般化ゼロショット学習(gzsl)手法は,参照データと未認識データを認識するための合成特徴の品質に依存する。
既知領域の合同分布を学習し,これらの手法においてドメイン識別の保持が重要である。
本研究では,可視クラスセマンティクスと可視クラスセマンティクスを併用し,強い視覚的セマンティック結合を通じて関節分布を学習する。
論文 参考訳(メタデータ) (2020-12-30T06:11:29Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。