論文の概要: Concentrate Attention: Towards Domain-Generalizable Prompt Optimization for Language Models
- arxiv url: http://arxiv.org/abs/2406.10584v4
- Date: Sat, 19 Oct 2024 08:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:42.228971
- Title: Concentrate Attention: Towards Domain-Generalizable Prompt Optimization for Language Models
- Title(参考訳): 集中型注意:言語モデルに対するドメイン一般化型プロンプト最適化を目指して
- Authors: Chengzhengxu Li, Xiaoming Liu, Zhaohan Zhang, Yichen Wang, Chen Liu, Yu Lan, Chao Shen,
- Abstract要約: 集中」というドメイン一般化可能なプロンプト最適化に向けた新たな目標を提案する。
提案手法は,ソフトプロンプトの一般化では1.42%,ハードプロンプトの一般化では2.16%,マルチソース領域の一般化では2.16%,比較プロンプトの最適化では1.42%向上する。
- 参考スコア(独自算出の注目度): 14.74868220560438
- License:
- Abstract: Recent advances in prompt optimization have notably enhanced the performance of pre-trained language models (PLMs) on downstream tasks. However, the potential of optimized prompts on domain generalization has been under-explored. To explore the nature of prompt generalization on unknown domains, we conduct pilot experiments and find that (i) Prompts gaining more attention weight from PLMs' deep layers are more generalizable and (ii) Prompts with more stable attention distributions in PLMs' deep layers are more generalizable. Thus, we offer a fresh objective towards domain-generalizable prompts optimization named "Concentration", which represents the "lookback" attention from the current decoding token to the prompt tokens, to increase the attention strength on prompts and reduce the fluctuation of attention distribution. We adapt this new objective to popular soft prompt and hard prompt optimization methods, respectively. Extensive experiments demonstrate that our idea improves comparison prompt optimization methods by 1.42% for soft prompt generalization and 2.16% for hard prompt generalization in accuracy on the multi-source domain generalization setting, while maintaining satisfying in-domain performance. The promising results validate the effectiveness of our proposed prompt optimization objective and provide key insights into domain-generalizable prompts.
- Abstract(参考訳): 近年のプロンプト最適化の進歩により、下流タスクにおける事前学習言語モデル(PLM)の性能が向上している。
しかし、ドメイン一般化における最適化されたプロンプトの可能性は、まだ解明されていない。
未知の領域に対する迅速な一般化の性質を探るため、パイロット実験を行い、それを見つける。
一 PLM の深層からより注目されるプロンプトはより一般化可能であること。
(II) PLMの深層におけるより安定した注意分布を持つプロンプトはより一般化可能である。
そこで我々は,現在デコードトークンからプロンプトトークンへの"振り返り"の注意を表す"集中"というドメイン一般化可能なプロンプト最適化に向けて,新たな目標を提案し,プロンプトに対する注意力を高め,注意分布の変動を低減する。
我々は,この新たな目的を,それぞれ一般的なソフトプロンプトとハードプロンプトの最適化手法に適用する。
拡張実験により,提案手法は,ソフトプロンプトの一般化において1.42%,マルチソース領域の一般化設定においてハードプロンプトの一般化において2.16%向上し,ドメイン内性能の満足度を維持しつつ比較プロンプトの最適化手法の改善を図っている。
提案したプロンプト最適化手法の有効性を検証し,ドメイン一般化可能なプロンプトに対する重要な洞察を提供する。
関連論文リスト
- Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Dual-Phase Accelerated Prompt Optimization [29.261886603989694]
本稿では,高品質な初期プロンプトの生成から始まる2相アプローチを提案する。
文レベルでのプロンプトを反復的に最適化し、従来のチューニング体験を活用して、プロンプト候補を拡張し、有効なプロンプトを受け入れる。
8つのデータセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-19T11:08:56Z) - Localized Zeroth-Order Prompt Optimization [54.964765668688806]
そこで我々は,ZOPO(Localized zeroth-order prompt optimization)という新しいアルゴリズムを提案する。
ZOPOはニューラル・タンジェント・カーネルをベースとしたガウス法を標準ゼロ階次最適化に取り入れ、高速な局所最適探索を高速化する。
注目すべきは、ZOPOは最適化性能とクエリ効率の両方の観点から、既存のベースラインを上回っていることだ。
論文 参考訳(メタデータ) (2024-03-05T14:18:15Z) - PromptAgent: Strategic Planning with Language Models Enables
Expert-level Prompt Optimization [60.00631098364391]
PromptAgentは、エキスパートレベルのプロンプトを、専門家による手工芸品と同等の品質で作成する最適化手法である。
PromptAgentは人間のような試行錯誤の探索にインスパイアされ、専門家レベルの正確な洞察と詳細な指示を誘導する。
PromptAgentを3つの実践領域にまたがる12のタスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T07:47:01Z) - Read-only Prompt Optimization for Vision-Language Few-shot Learning [20.66798356082751]
学習可能なプロンプトは、自己アテンションモジュールの内部表現に影響を与える可能性がある。
本稿では,リードオンリーのプロンプト最適化(RPO)を提案する。
実験により, RPOはCLIPとCoCoOpより, ベース・ツー・ニューな一般化とドメインの一般化に優れることが示された。
論文 参考訳(メタデータ) (2023-08-29T01:22:30Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z) - On Evolving Attention Towards Domain Adaptation [110.57454902557767]
本稿では、人間の介入なしに特定のUDAタスクの注意構成を進化させる新しいフレームワークであるEvoADAを提案する。
Office-31、Office-Home、CUB-Paintings、Duke-Market-1510といったクロスドメインベンチマークの実験は、提案されたEvoADAが一貫して複数の最先端ドメイン適応アプローチを向上していることを示している。
論文 参考訳(メタデータ) (2021-03-25T01:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。