論文の概要: Training Prompt Matters: State-Adaptive Optimization for Robust Fine-Tuning
- arxiv url: http://arxiv.org/abs/2606.01967v1
- Date: Mon, 01 Jun 2026 09:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.694566
- Title: Training Prompt Matters: State-Adaptive Optimization for Robust Fine-Tuning
- Title(参考訳): プロンプトのトレーニング:ロバストファインチューニングのための状態適応最適化
- Authors: Wenhang Shi, Yiren Chen, Shuqing Bian, Zhe Zhao, Jinhao Dong, Pengfei Hu, Wei Lu, Xiaoyong Du,
- Abstract要約: パラフレーズのプロンプトは, 忘れることや一般化に大きく異なる影響をもたらすことを示す。
これらの影響はタスク間で正に相関しており、優れたプロンプトの存在が常により良いパフォーマンスをもたらすことを示している。
静的入力から動的状態適応変数へタスク定式化をシフトする軽量かつ効果的なトレーニング戦略である状態適応型プロンプト最適化(SAPO)を導入する。
- 参考スコア(独自算出の注目度): 14.317667911880482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While prompt engineering is instrumental in maximizing the capabilities of Large Language Models (LLMs) during inference, the role of prompts during training remains critically underexplored. Prevailing fine-tuning paradigms typically treat training prompts as mere surface forms, assuming that semantically equivalent instructions yield identical learning outcomes. However, we reveal that this equivalence is deceptive: while paraphrased prompts often lead to comparable in-task performance, they induce drastically different cross-task impacts regarding catastrophic forgetting and generalization. Crucially, these impacts are positively correlated across tasks, indicating the existence of superior prompts that consistently yield better performance. Furthermore, we discover that these superior prompts can be robustly identified by task loss prior to learning. Leveraging these insights, we introduce State-Adaptive Prompt Optimization (SAPO), a lightweight yet effective training strategy that shifts task formulation from a static input to a dynamic, state-adaptive variable. Comprehensive experiments on diverse benchmarks confirm its effectiveness, which significantly mitigates forgetting while improving generalization, achieving substantial performance gains over state-of-the-art methods. These results provide insights into how training prompts shape learning dynamics and offer a practical recipe for robust fine-tuning. Our code is available at https://github.com/Eric8932/SAPO.
- Abstract(参考訳): プロンプトエンジニアリングは、推論中のLarge Language Models(LLM)の能力を最大化するのに役立っているが、トレーニング中のプロンプトの役割はいまだに過小評価されている。
一般的な微調整パラダイムは、意味的に等価な命令が同じ学習結果をもたらすと仮定して、トレーニングプロンプトを単に表面的な形式として扱う。
しかし、この同値性は誤認的であることを明らかにする: パラフレーズ付きプロンプトは、しばしば同等のタスク内パフォーマンスをもたらすが、破滅的な忘れと一般化に関して、劇的に異なるクロスタスクの影響を誘発する。
重要なことは、これらの影響はタスク間で肯定的に相関しており、優れたプロンプトの存在が常により良いパフォーマンスをもたらすことを示している。
さらに、これらの優れたプロンプトは、学習前にタスク損失によって堅牢に識別できることが判明した。
これらの知見を活用して、静的入力から動的に状態適応変数へタスクの定式化をシフトする軽量で効果的なトレーニング戦略であるステート適応型プロンプト最適化(SAPO)を導入する。
多様なベンチマークに関する総合的な実験は、その有効性を確認し、これは一般化を改善しながら忘れを著しく軽減し、最先端の手法よりもかなりの性能向上を達成する。
これらの結果は、トレーニングが形状学習のダイナミクスをどのように促すかについての洞察を与え、堅牢な微調整のための実践的なレシピを提供する。
私たちのコードはhttps://github.com/Eric8932/SAPO.comで公開されています。
関連論文リスト
- Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - PAFT: Prompt-Agnostic Fine-Tuning [24.209557567599393]
微調整された大きな言語モデル(LLM)は、しばしば特定のプロンプト語に過剰な適合を引き起こす。
本稿では,トレーニング中の動的プロンプト変動によるロバスト性向上手法であるPrompt-Agnostic Fine-Tuning(PAFT)を提案する。
論文 参考訳(メタデータ) (2025-02-18T13:46:47Z) - Prompt-Tuning Bandits: Enabling Few-Shot Generalization for Efficient Multi-Task Offline RL [2.6731152954002924]
提案手法は,軽量で推論時,帯域幅に基づくプロンプトチューニングフレームワークである。
バンディットは、トランスフォーマーのバックボーンの微調整を犠牲にすることなく、作業性能を向上させるために軌道のプロンプト選択を探索し、最適化する。
実験の結果,バンディットに基づくプロンプトチューニングによる性能向上だけでなく,サンプルの複雑さ,拡張性,空間探索の迅速化などが示唆された。
論文 参考訳(メタデータ) (2025-02-10T11:20:10Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。