論文の概要: DRPT: Disentangled and Recurrent Prompt Tuning for Compositional
Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2305.01239v1
- Date: Tue, 2 May 2023 07:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 15:04:31.714454
- Title: DRPT: Disentangled and Recurrent Prompt Tuning for Compositional
Zero-Shot Learning
- Title(参考訳): DRPT:コンポジションゼロショット学習のためのアンタングルおよびリカレントプロンプトチューニング
- Authors: Xiaocheng Lu, Ziming Liu, Song Guo, Jingcai Guo, Fushuo Huo, Sikai Bai
and Tao Han
- Abstract要約: 状態とオブジェクトのプリミティブは、プロンプトに埋め込まれ、目に見えない構成にチューニングされた語彙の学習可能なトークンと見なされる。
プロンプトを段階的に更新できるプログレッシブな微調整手順を開発した。
合成ゼロショット学習における絡み合いの定量化と解析を行う。
- 参考スコア(独自算出の注目度): 15.580557941267095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional Zero-shot Learning (CZSL) aims to recognize novel concepts
composed of known knowledge without training samples. Standard CZSL either
identifies visual primitives or enhances unseen composed entities, and as a
result, entanglement between state and object primitives cannot be fully
utilized. Admittedly, vision-language models (VLMs) could naturally cope with
CZSL through tuning prompts, while uneven entanglement leads prompts to be
dragged into local optimum. In this paper, we take a further step to introduce
a novel Disentangled and Recurrent Prompt Tuning framework termed DRPT to
better tap the potential of VLMs in CZSL. Specifically, the state and object
primitives are deemed as learnable tokens of vocabulary embedded in prompts and
tuned on seen compositions. Instead of jointly tuning state and object, we
devise a disentangled and recurrent tuning strategy to suppress the traction
force caused by entanglement and gradually optimize the token parameters,
leading to a better prompt space. Notably, we develop a progressive fine-tuning
procedure that allows for incremental updates to the prompts, optimizing the
object first, then the state, and vice versa. Meanwhile, the optimization of
state and object is independent, thus clearer features can be learned to
further alleviate the issue of entangling misleading optimization. Moreover, we
quantify and analyze the entanglement in CZSL and supplement entanglement
rebalancing optimization schemes. DRPT surpasses representative
state-of-the-art methods on extensive benchmark datasets, demonstrating
superiority in both accuracy and efficiency.
- Abstract(参考訳): 合成ゼロショット学習(CZSL)は、既知の知識からなる新しい概念を学習サンプルなしで認識することを目的としている。
標準のCZSLは視覚的プリミティブを識別するか、見えない構成エンティティを強化し、その結果、状態とオブジェクトプリミティブの絡み合いを完全には利用できない。
必然的に、視覚言語モデル(VLM)は、調整プロンプトを通じてCZSLを自然に扱うことができ、不均一な絡み合いは局所的な最適条件に引きずられる。
本稿では,Distangled and Recurrent Prompt Tuning フレームワーク DRPT を新たに導入し,CZSL における VLM の可能性を改善する。
具体的には、状態とオブジェクトプリミティブは、プロンプトに埋め込まれて、見られる構成に基づいて調整された語彙の学習可能なトークンと見なされる。
状態とオブジェクトを協調的にチューニングする代わりに,絡み合いによるトラクション力を抑制し,トークンパラメータを徐々に最適化することにより,より優れたプロンプト空間を実現する。
特に、プロンプトの漸進的な更新を可能にするプログレッシブな微調整手順を開発し、まずオブジェクト、次に状態、そしてその逆を最適化する。
一方、状態とオブジェクトの最適化は独立なので、より明確な特徴を学べば、誤解を招く最適化の問題をさらに緩和することができる。
さらに, czslの絡み合いを定量化分析し, 絡み合い再バランス最適化スキームを補完する。
DRPTは大規模なベンチマークデータセットにおける最先端の代表的な手法を超越し、精度と効率の両面で優位性を示す。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Towards Explainable Evolution Strategies with Large Language Models [0.0]
本稿では,自己適応的進化戦略(ES)と大規模言語モデル(LLM)を統合するアプローチを提案する。
再起動機構を備えた自己適応型ESを用いることで、ベンチマーク関数の難易度を効果的にナビゲートする。
LLMを使用してこれらのログを処理し、簡潔でユーザフレンドリーな要約を生成する。
論文 参考訳(メタデータ) (2024-07-11T09:28:27Z) - Boosting Vision-Language Models with Transduction [12.281505126587048]
本稿では,視覚言語モデルのための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。
TransCLIPは、一般的なinductive zero- and few-shotモデルの上に、プラグイン・アンド・プレイモジュールとして適用することができる。
論文 参考訳(メタデータ) (2024-06-03T23:09:30Z) - SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models [19.005364038603204]
自己整合性チューニング(SC-Tune)と呼ばれる新しい微調整パラダイムを導入する。
SC-Tuneは循環型記述子-ロケータシステムの相乗学習を特徴としている。
SC-Tuneは、オブジェクトレベルの視覚言語ベンチマークにおいて、性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-03-20T03:00:21Z) - Understanding Prompt Tuning for V-L Models Through the Lens of Neural
Collapse [47.89674843370092]
本稿では,テキストと画像表現でプロンプトを学習する新しい手法であるNPTを提案する。
NPTは、言語モダリティの崩壊と多モダリティの同型という2つの正規化用語を取り入れており、他のプロンプトチューニング手法と互換性がある。
論文 参考訳(メタデータ) (2023-06-28T06:37:03Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - Improving Self-Supervised Learning by Characterizing Idealized
Representations [155.1457170539049]
与えられたデータ拡張に不変なタスクに対して必要かつ十分な条件を証明します。
対照的に、我々のフレームワークは、従来の手法に対して単純だが重要な改善を規定している。
非コントラスト学習では、私たちのフレームワークを使って、シンプルで斬新な目的を導き出します。
論文 参考訳(メタデータ) (2022-09-13T18:01:03Z) - Generalized Zero-Shot Learning via VAE-Conditioned Generative Flow [83.27681781274406]
一般化されたゼロショット学習は、意味的記述から視覚的表現へ知識を移すことによって、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
近年のGZSLはデータ不足問題として定式化されており、主にGANやVAEを採用して、目に見えないクラスの視覚的特徴を生成する。
GZSLのための条件付き生成フロー,すなわちVAE-Conditioned Generative Flow (VAE-cFlow)を提案する。
論文 参考訳(メタデータ) (2020-09-01T09:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。