論文の概要: Few-Shot Learning from Augmented Label-Uncertain Queries in Bongard-HOI
- arxiv url: http://arxiv.org/abs/2312.10586v1
- Date: Sun, 17 Dec 2023 02:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:44:24.807052
- Title: Few-Shot Learning from Augmented Label-Uncertain Queries in Bongard-HOI
- Title(参考訳): bongard-hoiにおけるラベル未確認クエリによるマイノリティ学習
- Authors: Qinqian Lei, Bo Wang, Robby T. Tan
- Abstract要約: 本稿では,クエリ入力の多様性を高めるために,ラベル不確実なクエリ拡張手法を提案する。
提案手法は,Bongard-HOIベンチマークにおいて68.74%の精度でSOTA(State-of-the-art)性能を実現する。
HICO-FSの精度は73.27%であり、5-way 5-shot タスクでは以前のSOTAの71.20%を上回った。
- 参考スコア(独自算出の注目度): 23.704284537118543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting human-object interactions (HOI) in a few-shot setting remains a
challenge. Existing meta-learning methods struggle to extract representative
features for classification due to the limited data, while existing few-shot
HOI models rely on HOI text labels for classification. Moreover, some query
images may display visual similarity to those outside their class, such as
similar backgrounds between different HOI classes. This makes learning more
challenging, especially with limited samples. Bongard-HOI (Jiang et al. 2022)
epitomizes this HOI few-shot problem, making it the benchmark we focus on in
this paper. In our proposed method, we introduce novel label-uncertain query
augmentation techniques to enhance the diversity of the query inputs, aiming to
distinguish the positive HOI class from the negative ones. As these augmented
inputs may or may not have the same class label as the original inputs, their
class label is unknown. Those belonging to a different class become hard
samples due to their visual similarity to the original ones. Additionally, we
introduce a novel pseudo-label generation technique that enables a mean teacher
model to learn from the augmented label-uncertain inputs. We propose to augment
the negative support set for the student model to enrich the semantic
information, fostering diversity that challenges and enhances the student's
learning. Experimental results demonstrate that our method sets a new
state-of-the-art (SOTA) performance by achieving 68.74% accuracy on the
Bongard-HOI benchmark, a significant improvement over the existing SOTA of
66.59%. In our evaluation on HICO-FS, a more general few-shot recognition
dataset, our method achieves 73.27% accuracy, outperforming the previous SOTA
of 71.20% in the 5-way 5-shot task.
- Abstract(参考訳): 数ショットで人間と物体の相互作用(HOI)を検出することは、依然として課題である。
既存のメタ学習手法では、限られたデータのために分類のための代表的特徴を抽出するのに苦労し、既存の数ショットHOIモデルは分類のためのHOIテキストラベルに依存している。
さらに、クエリイメージの中には、異なるhoiクラス間の類似のバックグラウンドなど、クラス外のものと視覚的に類似性を示すものもある。
これにより、特に限られたサンプルで学習がより困難になる。
Bongard-HOI (Jiang et al. 2022) は、このHOIの少数ショット問題を要約し、本論文で注目しているベンチマークである。
提案手法では,クエリ入力の多様性を高めるためにラベルなしのクエリ拡張手法を導入し,正のhoiクラスと負のhoiクラスを区別することを目的としている。
これらの拡張された入力は、元の入力と同じクラスラベルを持つかもしれないし、持たないかもしれないので、それらのクラスラベルは未知である。
異なるクラスに属するものは、元のものと視覚的に類似しているため、硬いサンプルとなる。
また,新しい擬似ラベル生成手法を導入することで,平均教師モデルがラベル未確認入力から学ぶことができる。
本稿では,学生モデルに対するネガティブサポートセットを充実させ,課題となる多様性を育成し,学習を促進することを提案する。
実験の結果,既存のSOTAの66.59%よりも大幅に向上したBongard-HOIベンチマークにおいて,68.74%の精度で新しいSOTA(State-of-the-art)性能が得られた。
より一般的なショット認識データセットであるHICO-FSの評価では、73.27%の精度を達成し、5-way 5-shotタスクにおいて、以前のSOTAの71.20%を上回った。
関連論文リスト
- VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Human Annotation-Free Pathological Image Classification [23.08368823707528]
本稿では,VLM(Venture-Language Models)を利用した画像分類法を提案する。
2つのノイズラベルフィルタリング技術と半教師付き学習戦略を統合した,コンセンサス擬似ラベルに基づく新しい手法 VLM-CPL を提案する。
実験の結果,HPHデータセットとLC25Kデータセットの精度は87.1%,95.1%であった。
論文 参考訳(メタデータ) (2024-03-23T13:24:30Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - Few-shot Image Classification based on Gradual Machine Learning [6.935034849731568]
少ないショット画像分類は、ラベル付きサンプルのみを使用してラベル付きイメージを正確に分類することを目的としている。
段階的機械学習(GML)の非i.dパラダイムに基づく新しいアプローチを提案する。
提案手法は精度でSOTAの性能を1-5%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-07-28T12:30:41Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Foundation Model Drives Weakly Incremental Learning for Semantic
Segmentation [12.362400851574872]
セマンティックセグメンテーション(WILSS)のための弱い漸進的な学習は、新しく魅力的なタスクである。
本稿では,WILSS のための新しいデータ効率フレームワーク FMWISS を提案する。
論文 参考訳(メタデータ) (2023-02-28T02:21:42Z) - PromptCAL: Contrastive Affinity Learning via Auxiliary Prompts for
Generalized Novel Category Discovery [39.03732147384566]
Generalized Novel Category Discovery (GNCD) 設定は、既知のクラスや新しいクラスから来るラベルなしのトレーニングデータを分類することを目的としている。
本稿では,この課題に対処するために,PromptCALと呼ばれる補助視覚プロンプトを用いたコントラスト親和性学習法を提案する。
提案手法は,クラストークンと視覚的プロンプトのための既知のクラスと新しいクラスのセマンティッククラスタリングを改善するために,信頼性の高いペアワイズサンプル親和性を発見する。
論文 参考訳(メタデータ) (2022-12-11T20:06:14Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Neighborhood Contrastive Learning for Novel Class Discovery [79.14767688903028]
我々は,クラスタリング性能に重要な識別表現を学習するために,Neighborhood Contrastive Learningという新しいフレームワークを構築した。
これらの2つの成分がクラスタリング性能に大きく寄与し、我々のモデルが最先端の手法よりも大きなマージンで優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-20T17:34:55Z) - Few-Shot Learning with Part Discovery and Augmentation from Unlabeled
Images [79.34600869202373]
帰納的バイアスは、ラベルなし画像の平坦な集合から学習でき、目に見えるクラスと目に見えないクラスの間で伝達可能な表現としてインスタンス化されることを示す。
具体的には、トランスファー可能な表現を学習するための、新しいパートベース自己教師型表現学習手法を提案する。
我々の手法は印象的な結果をもたらし、それまでの最高の教師なし手法を7.74%、9.24%上回った。
論文 参考訳(メタデータ) (2021-05-25T12:22:11Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。