論文の概要: Learning Using Generated Privileged Information by Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2309.15238v2
- Date: Mon, 19 Aug 2024 15:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 04:16:54.732184
- Title: Learning Using Generated Privileged Information by Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルによる原始情報生成による学習
- Authors: Rafael-Edy Menadil, Mariana-Iuliana Georgescu, Radu Tudor Ionescu,
- Abstract要約: 本稿では,テキストから画像への拡散モデルを用いて,人工的な特権情報を生成するフレームワークを提案する。
我々のフレームワークはLearning Using Generated Privileged Information (LUGPI)と呼ばれ、4つのテキスト分類データセットに対して顕著な性能向上をもたらす。
- 参考スコア(独自算出の注目度): 26.126272668390374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning Using Privileged Information is a particular type of knowledge distillation where the teacher model benefits from an additional data representation during training, called privileged information, improving the student model, which does not see the extra representation. However, privileged information is rarely available in practice. To this end, we propose a text classification framework that harnesses text-to-image diffusion models to generate artificial privileged information. The generated images and the original text samples are further used to train multimodal teacher models based on state-of-the-art transformer-based architectures. Finally, the knowledge from multimodal teachers is distilled into a text-based (unimodal) student. Hence, by employing a generative model to produce synthetic data as privileged information, we guide the training of the student model. Our framework, called Learning Using Generated Privileged Information (LUGPI), yields noticeable performance gains on four text classification data sets, demonstrating its potential in text classification without any additional cost during inference.
- Abstract(参考訳): 特権情報を用いた学習(英語: Learning Using Privileged Information)は、教師モデルが、特権情報と呼ばれる訓練中に追加のデータ表現から恩恵を受ける、特定の種類の知識蒸留である。
しかし、実際には特権情報の入手はめったにない。
そこで本研究では,テキスト間拡散モデルを用いて人工的な特権情報を生成するテキスト分類フレームワークを提案する。
生成した画像と元のテキストサンプルは、最先端のトランスフォーマーベースアーキテクチャに基づくマルチモーダル教師モデルのトレーニングにさらに使用される。
最後に、マルチモーダル教師の知識をテキストベースの(単調な)学生に蒸留する。
したがって、生成モデルを用いて、特権情報として合成データを生成することにより、学生モデルのトレーニングをガイドする。
我々のフレームワークはLearning Using Generated Privileged Information (LUGPI)と呼ばれ、4つのテキスト分類データセットに対して顕著な性能向上をもたらし、推論中に追加のコストを伴わずにその可能性を示す。
関連論文リスト
- Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。