論文の概要: Weighted Multi-Prompt Learning with Description-free Large Language Model Distillation
- arxiv url: http://arxiv.org/abs/2507.07147v1
- Date: Wed, 09 Jul 2025 07:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.145923
- Title: Weighted Multi-Prompt Learning with Description-free Large Language Model Distillation
- Title(参考訳): 説明自由大言語モデル蒸留による重み付きマルチプロンプト学習
- Authors: Sua Lee, Kyubum Shin, Jung Ho Park,
- Abstract要約: 大規模言語モデル(LLM)をプロンプトに活用する新たなアプローチが提案されている。
既存の方法は典型的には LLM からテキストベースの応答(つまり記述)を抽出し、プロンプトに組み込む。
記述を抽出し, LLM から直接知識を抽出する新たな手法として, 記述不要なマルチプロンプト学習(DeMul)を提案する。
- 参考スコア(独自算出の注目度): 1.3381749415517021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in pre-trained Vision Language Models (VLM) have shown promising potential for effectively adapting to downstream tasks through prompt learning, without the need for additional annotated paired datasets. To supplement the text information in VLM trained on correlations with vision data, new approaches leveraging Large Language Models (LLM) in prompts have been proposed, enhancing robustness to unseen and diverse data. Existing methods typically extract text-based responses (i.e., descriptions) from LLM to incorporate into prompts; however, this approach suffers from high variability and low reliability. In this work, we propose Description-free Multi-prompt Learning(DeMul), a novel method that eliminates the process of extracting descriptions and instead directly distills knowledge from LLM into prompts. By adopting a description-free approach, prompts can encapsulate richer semantics while still being represented as continuous vectors for optimization, thereby eliminating the need for discrete pre-defined templates. Additionally, in a multi-prompt setting, we empirically demonstrate the potential of prompt weighting in reflecting the importance of different prompts during training. Experimental results show that our approach achieves superior performance across 11 recognition datasets.
- Abstract(参考訳): 事前訓練された視覚言語モデル(VLM)の最近の進歩は、追加の注釈付きペアデータセットを必要とせずに、迅速な学習を通じて下流タスクに効果的に適応できる有望な可能性を示している。
視覚データとの相関に基づいて訓練されたVLMのテキスト情報を補うために,Large Language Models (LLM) を利用した新たなアプローチが提案されている。
既存の手法は LLM からテキストベースの応答(例えば記述)を抽出してプロンプトに組み込むが、このアプローチは高い可変性と信頼性に悩まされる。
本研究では,記述を抽出し,LLMから直接的に知識を抽出する新しい手法として,記述自由なマルチプロンプト学習(DeMul)を提案する。
説明のないアプローチを採用することで、プロンプトはよりリッチなセマンティクスをカプセル化でき、最適化のための連続ベクトルとして表現される。
さらに,マルチプロンプト環境では,訓練中の異なるプロンプトの重要性を反映して,プロンプト重み付けの可能性を実証的に示す。
実験結果から,本手法は11個の認識データセットにまたがって優れた性能を発揮することが示された。
関連論文リスト
- IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。