論文の概要: Text-Guided Mixup Towards Long-Tailed Image Categorization
- arxiv url: http://arxiv.org/abs/2409.03583v1
- Date: Thu, 5 Sep 2024 14:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:15:17.179410
- Title: Text-Guided Mixup Towards Long-Tailed Image Categorization
- Title(参考訳): 長尺画像カテゴリ化に向けたテキストガイドミキシング
- Authors: Richard Franklin, Jiawei Yao, Deyang Zhong, Qi Qian, Juhua Hu,
- Abstract要約: 多くの実世界のアプリケーションにおいて、トレーニングデータのためのクラスラベルの周波数分布は、長い尾の分布を示すことができる。
本稿では,事前学習したテキストエンコーダによって認識されるクラス間の意味的関係を利用した,テキスト誘導型ミックスアップ手法を提案する。
- 参考スコア(独自算出の注目度): 7.207351201912651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world applications, the frequency distribution of class labels for training data can exhibit a long-tailed distribution, which challenges traditional approaches of training deep neural networks that require heavy amounts of balanced data. Gathering and labeling data to balance out the class label distribution can be both costly and time-consuming. Many existing solutions that enable ensemble learning, re-balancing strategies, or fine-tuning applied to deep neural networks are limited by the inert problem of few class samples across a subset of classes. Recently, vision-language models like CLIP have been observed as effective solutions to zero-shot or few-shot learning by grasping a similarity between vision and language features for image and text pairs. Considering that large pre-trained vision-language models may contain valuable side textual information for minor classes, we propose to leverage text supervision to tackle the challenge of long-tailed learning. Concretely, we propose a novel text-guided mixup technique that takes advantage of the semantic relations between classes recognized by the pre-trained text encoder to help alleviate the long-tailed problem. Our empirical study on benchmark long-tailed tasks demonstrates the effectiveness of our proposal with a theoretical guarantee. Our code is available at https://github.com/rsamf/text-guided-mixup.
- Abstract(参考訳): 多くの現実世界のアプリケーションでは、トレーニングデータのためのクラスラベルの頻度分布は長い尾の分布を示すことができ、大量のバランスデータを必要とするディープニューラルネットワークをトレーニングする従来のアプローチに挑戦する。
クラスラベルの分布のバランスをとるためのデータの収集とラベル付けは、コストと時間の両方を要します。
深層ニューラルネットワークに適用されるアンサンブル学習、再バランス戦略、あるいは微調整を可能にする既存のソリューションの多くは、クラスの一部にまたがる少数のクラスサンプルの不活性問題によって制限されている。
近年、CLIPのような視覚言語モデルは、画像とテキストのペアにおける視覚と言語の特徴の類似性を把握し、ゼロショットや少数ショット学習の効果的な解決策として観察されている。
大規模な事前学習型視覚言語モデルには,中小クラスに有用な副文情報が含まれる可能性があることを考慮し,長期学習の課題に対処するために,テキスト管理を活用することを提案する。
具体的には、事前学習したテキストエンコーダが認識したクラス間の意味的関係を利用して、長い尾の問題を緩和する新しいテキスト誘導混合手法を提案する。
長期タスクのベンチマークに関する実証的研究は,提案手法の有効性を理論的保証とともに示すものである。
私たちのコードはhttps://github.com/rsamf/text-guided-mixup.comで利用可能です。
関連論文リスト
- Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - NewsEmbed: Modeling News through Pre-trained DocumentRepresentations [5.007237648361745]
そこで本研究では,人間をほとんど監督せず,意味に関連のある新鮮文書とそのトピックラベルをマイニングする新しい手法を提案する。
提案手法は,何十億もの高品質な有機的学習例を提供し,自然に多言語環境に拡張可能であることを示す。
論文 参考訳(メタデータ) (2021-06-01T15:59:40Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - NeuCrowd: Neural Sampling Network for Representation Learning with
Crowdsourced Labels [19.345894148534335]
本稿では,クラウドソースラベルから教師付き表現学習(SRL)を実現する統一フレームワークであるemphNeuCrowdを提案する。
提案手法は1つの実世界のデータセットと3つの実世界のデータセットで評価される。
論文 参考訳(メタデータ) (2020-03-21T13:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。