Fugu-MT 論文翻訳(概要): Diverse and Tailored Image Generation for Zero-shot Multi-label Classification

論文の概要: Diverse and Tailored Image Generation for Zero-shot Multi-label Classification

arxiv url: http://arxiv.org/abs/2404.03144v1
Date: Thu, 4 Apr 2024 01:34:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 16:03:13.244737
Title: Diverse and Tailored Image Generation for Zero-shot Multi-label Classification
Title（参考訳）: Zero-shot Multi-label 分類のためのディバース画像とテーラー画像の生成
Authors: Kaixin Zhang, Zhixiang Yuan, Tao Huang,
Abstract要約: ゼロショットのマルチラベル分類は、人間のアノテーションを使わずに、目に見えないラベルで予測を実行する能力について、かなりの注目を集めている。一般的なアプローチでは、目に見えないものに対する不完全なプロキシとしてクラスをよく使用します。本稿では,未確認ラベル上でのプロキシレストレーニングに適したトレーニングセットを構築するために,合成データを生成する,革新的なソリューションを提案する。
参考スコア（独自算出の注目度）: 3.354528906571718
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, zero-shot multi-label classification has garnered considerable attention for its capacity to operate predictions on unseen labels without human annotations. Nevertheless, prevailing approaches often use seen classes as imperfect proxies for unseen ones, resulting in suboptimal performance. Drawing inspiration from the success of text-to-image generation models in producing realistic images, we propose an innovative solution: generating synthetic data to construct a training set explicitly tailored for proxyless training on unseen labels. Our approach introduces a novel image generation framework that produces multi-label synthetic images of unseen classes for classifier training. To enhance diversity in the generated images, we leverage a pre-trained large language model to generate diverse prompts. Employing a pre-trained multi-modal CLIP model as a discriminator, we assess whether the generated images accurately represent the target classes. This enables automatic filtering of inaccurately generated images, preserving classifier accuracy. To refine text prompts for more precise and effective multi-label object generation, we introduce a CLIP score-based discriminative loss to fine-tune the text encoder in the diffusion model. Additionally, to enhance visual features on the target task while maintaining the generalization of original features and mitigating catastrophic forgetting resulting from fine-tuning the entire visual encoder, we propose a feature fusion module inspired by transformer attention mechanisms. This module aids in capturing global dependencies between multiple objects more effectively. Extensive experimental results validate the effectiveness of our approach, demonstrating significant improvements over state-of-the-art methods.
Abstract（参考訳）: 近年、ゼロショットのマルチラベル分類は、人間のアノテーションを使わずに、目に見えないラベルの予測を行う能力にかなりの注意を払っている。それにもかかわらず、一般的なアプローチでは、目に見えないものに対する不完全なプロキシとしてクラスをよく使用し、結果として準最適性能をもたらす。実写画像生成におけるテキスト・画像生成モデルの成功からインスピレーションを得て,未確認ラベルのプロキシレストレーニングに適したトレーニングセットを構築するための合成データを生成するという,革新的なソリューションを提案する。本稿では,未確認クラスの複数ラベル合成画像を生成する新しい画像生成フレームワークを提案する。生成した画像の多様性を高めるために,事前学習された大規模言語モデルを用いて多様なプロンプトを生成する。事前学習したマルチモーダルCLIPモデルを判別器として使用し,生成した画像がターゲットクラスを正確に表現するかどうかを評価する。これにより、不正確な生成画像の自動フィルタリングが可能となり、分類器の精度が保たれる。テキストプロンプトを改良し,より正確かつ効果的なマルチラベルオブジェクト生成を実現するために,拡散モデルにおいてテキストエンコーダを微調整するCLIPスコアに基づく識別的損失を導入する。さらに,本来の特徴の一般化を維持しつつ,視覚的エンコーダ全体の微調整による破滅的な忘れを軽減しつつ,目標タスクの視覚的特徴を高めるために,トランスフォーマーの注意機構にインスパイアされた機能融合モジュールを提案する。このモジュールは、複数のオブジェクト間のグローバルな依存関係をより効率的に取得するのに役立つ。提案手法の有効性を実験的に検証し,最先端手法に比較して有意な改善が認められた。

関連論文リスト

MiraGe: Multimodal Discriminative Representation Learning for Generalizable AI-Generated Image Detection [32.662682253295486]
一般化可能なAI生成画像検出のためのマルチモーダル識別学習(MiraGegenerator)を提案する。テキスト埋め込みをセマンティックアンカーとして活用し、効果的な識別的表現学習を実現するために、マルチモーダル・プロンプト・ラーニングを適用した。 MiraGegeneratorは最先端のパフォーマンスを実現し、Soraのような目に見えないジェネレータに対してさえ堅牢性を維持している。
論文参考訳（メタデータ） (2025-08-03T00:19:18Z)
Google is all you need: Semi-Supervised Transfer Learning Strategy For Light Multimodal Multi-Task Classification Model [1.8160945635344523]
本研究では,複数のラベルを単一画像にアサインする頑健なマルチラベル分類システムを提案する。本稿では,高度な画像認識アルゴリズムを自然言語処理(NLP)モデルと組み合わせたマルチモーダル分類器を提案する。提案する分類モデルは,画像処理のための畳み込みニューラルネットワーク(CNN)と,テキスト記述を解析するためのNLP技術を組み合わせたものである。
論文参考訳（メタデータ） (2025-01-03T03:11:17Z)
Efficient Visualization of Neural Networks with Generative Models and Adversarial Perturbations [0.0]
本稿では,既存の手法を改良した生成ネットワークによるディープビジュアライゼーション手法を提案する。我々のモデルは、使用するネットワーク数を減らし、ジェネレータと識別器のみを必要とすることにより、アーキテクチャを単純化する。我々のモデルは、事前の訓練知識を少なくし、差別者がガイドとして機能する非敵的訓練プロセスを使用する。
論文参考訳（メタデータ） (2024-09-20T14:59:25Z)
Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。 Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。 CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文参考訳（メタデータ） (2024-09-03T12:34:21Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文参考訳（メタデータ） (2024-03-11T08:45:31Z)
Diversified in-domain synthesis with efficient fine-tuning for few-shot classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文参考訳（メタデータ） (2023-12-05T17:18:09Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文参考訳（メタデータ） (2022-10-27T05:19:55Z)
Object-Aware Self-supervised Multi-Label Learning [9.496981642855769]
マルチラベル学習のためのよりきめ細かい表現を得るために,オブジェクト指向自己スーパービジョン(OASS)法を提案する。提案手法は,提案しない方式でCSI(Class-Specific Instances)を効率的に生成するために利用することができる。マルチラベル分類のためのVOC2012データセットの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-05-14T10:14:08Z)
Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-07-24T15:00:47Z)
Saliency-driven Class Impressions for Feature Visualization of Deep Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文参考訳（メタデータ） (2020-07-31T06:11:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。