論文の概要: Vision-language Assisted Attribute Learning
- arxiv url: http://arxiv.org/abs/2312.07009v2
- Date: Fri, 15 Dec 2023 02:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 18:10:12.956089
- Title: Vision-language Assisted Attribute Learning
- Title(参考訳): 視覚言語支援属性学習
- Authors: Kongming Liang, Xinran Wang, Rui Wang, Donghui Gao, Ling Jin, Weidong
Liu, Xiatian Zhu, Zhanyu Ma, Jun Guo
- Abstract要約: 大規模な属性ラベリングは通常不完全で部分的である。
既存の属性学習手法は、欠落したラベルを否定的な扱いをすることが多い。
利用可能な視覚言語知識を活用して、モデル学習の強化に欠落しているラベルを明確に明らかにする。
- 参考スコア(独自算出の注目度): 53.60196963381315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attribute labeling at large scale is typically incomplete and partial, posing
significant challenges to model optimization. Existing attribute learning
methods often treat the missing labels as negative or simply ignore them all
during training, either of which could hamper the model performance to a great
extent. To overcome these limitations, in this paper we leverage the available
vision-language knowledge to explicitly disclose the missing labels for
enhancing model learning. Given an image, we predict the likelihood of each
missing attribute label assisted by an off-the-shelf vision-language model, and
randomly select to ignore those with high scores in training. Our strategy
strikes a good balance between fully ignoring and negatifying the missing
labels, as these high scores are found to be informative on revealing label
ambiguity. Extensive experiments show that our proposed vision-language
assisted loss can achieve state-of-the-art performance on the newly cleaned VAW
dataset. Qualitative evaluation demonstrates the ability of the proposed method
in predicting more complete attributes.
- Abstract(参考訳): 大規模な属性ラベリングは通常不完全で部分的であり、モデルの最適化には重大な課題がある。
既存の属性学習手法では、欠落したラベルを負のラベルとして扱う場合や、トレーニング中にすべて無視する場合が多い。
これらの制限を克服するため,本稿では,利用可能な視覚言語知識を活用し,モデル学習に欠落するラベルを明確に開示する。
画像が与えられた場合、既成の視覚言語モデルによって支援された各属性ラベルの可能性を予測し、訓練中のスコアの高い属性を無作為に選択する。
当社の戦略は、この高いスコアがラベルの曖昧さを明らかにする上で有益であることから、完全な無視と欠落したラベルの否定のバランスを保ちます。
広汎な実験により,提案した視覚言語支援損失は,新たにクリーン化したVAWデータセット上で最先端のパフォーマンスを実現することができた。
定性的評価は,提案手法がより完全な属性を予測できることを示す。
関連論文リスト
- Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - A Self Supervised StyleGAN for Image Annotation and Classification with
Extremely Limited Labels [35.43549147657739]
画像アノテーションと分類のための自己教師型アプローチであるSS-StyleGANを提案する。
提案手法は,50と10の小さなラベル付きデータセットを用いて,強力な分類結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-26T09:46:50Z) - ERASE: Error-Resilient Representation Learning on Graphs for Label Noise
Tolerance [53.73316938815873]
本稿では, ERASE (Error-Resilient representation learning on graphs for lAbel noiSe tolerancE) という手法を提案する。
ERASEは、プロトタイプの擬似ラベルとプロパゲーションされた識別ラベルを組み合わせて、表現をエラーレジリエンスで更新する。
提案手法は, 広い雑音レベルにおいて, 複数のベースラインをクリアマージンで上回り, 高いスケーラビリティを享受できる。
論文 参考訳(メタデータ) (2023-12-13T17:59:07Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Robust Feature Learning Against Noisy Labels [0.2082426271304908]
ミスラベルされたサンプルはモデルの一般化を著しく低下させることができる。
ノイズラベルによる監督の負の影響を最小限に抑えるために、プログレッシブな自己ブートストラッピングが導入される。
実験結果から,本手法は強騒音ラベル下でモデルロバスト性を効果的かつ効果的に向上できることが示唆された。
論文 参考訳(メタデータ) (2023-07-10T02:55:35Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Semi-FairVAE: Semi-supervised Fair Representation Learning with
Adversarial Variational Autoencoder [92.67156911466397]
逆変分オートエンコーダに基づく半教師付き公正表現学習手法を提案する。
我々は、バイアス認識モデルを用いて、機密属性の固有バイアス情報をキャプチャする。
また、偏見のないモデルを用いて、対立学習を用いて偏見情報を取り除き、偏見のない公正表現を学習する。
論文 参考訳(メタデータ) (2022-04-01T15:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。