論文の概要: GPS: General Per-Sample Prompter
- arxiv url: http://arxiv.org/abs/2511.21714v1
- Date: Tue, 18 Nov 2025 18:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.356064
- Title: GPS: General Per-Sample Prompter
- Title(参考訳): GPS: パーサンプル・プロンプター
- Authors: Pawel Batorski, Paul Swoboda,
- Abstract要約: 我々は,最初の汎用型サンプルごとのプロンプト手法であるGPSを提案する。
GPSは、広範囲の最適化やタスク固有のトレーニングセットへのアクセスなしに、適応的で入力固有のプロンプトを生成する。
- 参考スコア(独自算出の注目度): 13.775690509818753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are sensitive to prompting, with task performance often hinging on subtle, sometimes imperceptible variations in phrasing. As a result, crafting effective prompts manually remains challenging and time-consuming. Recent automatic prompting methods mitigate this difficulty but face three key limitations: (i) for each new task, they require large datasets to train good prompts;(ii) they rely on costly optimization loops that may take hours; (iii)they typically produce a single task-level prompt that does not adapt to the individual input problem to be solved. We propose GPS, the first general-purpose, per-sample prompting method. Without any task-specific tuning, GPS generates a tailored prompt for each unseen input, improving performance across diverse tasks. The prompter is trained with reinforcement learning on a suite of training tasks and includes a novel regularization for effectively adapting to per-sample prompting. Finally, we employ Minimum Bayes Risk decoding to stabilize inference. Empirically, GPS demonstrates competitive performance: we attain second best results among baselines on text simplification, third best results on summarization and on-par results on classification, while not training on any of these tasks, in contrast to the baselines. For in-domain prompting, we obtain sota on GSM8K. Our work shows the potential of a novel and effective paradigm for automatic prompting: generating adaptive, input-specific prompts without extensive optimization and without access to a task-specific training set. Our code is available at https://github.com/Batorskq/GPS.
- Abstract(参考訳): LLMはプロンプトに敏感であり、タスクパフォーマンスはしばしば、微妙で、時には認識不能な表現のバリエーションに頼っている。
結果として、効果的なプロンプトを手作業で作成することは困難であり、時間がかかる。
最近の自動プロンプト方式は、この難しさを緩和するが、3つの重要な制限に直面している。
i) 新しいタスクごとに、適切なプロンプトをトレーニングするために大きなデータセットが必要です。
(II)時間を要するようなコストのかかる最適化ループに依存している。
(iii)通常、個々の入力問題に適応しない単一のタスクレベルのプロンプトを生成する。
我々は,最初の汎用型サンプルごとのプロンプト手法であるGPSを提案する。
タスク固有のチューニングがなければ、GPSは未確認の入力ごとに調整されたプロンプトを生成し、さまざまなタスクのパフォーマンスを向上させる。
プロンプトは、一連のトレーニングタスクで強化学習を施し、サンプルごとのプロンプトに効果的に適応するための新しい正規化を含む。
最後に、推論を安定させるために最小ベイズリスク復号を用いる。
テキストの単純化によるベースライン,要約による第3のベスト結果,分類によるオンパー結果など,ベースラインとは対照的に,これらのタスクのトレーニングは行わない。
ドメイン内のプロンプトでは、GSM8K上のソータを得る。
本研究は, 適応型, 入出力型プロンプトを広範囲に最適化することなく, タスク固有のトレーニングセットにアクセスせずに生成する, 自動プロンプトのための新しい効果的なパラダイムの可能性を示す。
私たちのコードはhttps://github.com/Batorskq/GPSで利用可能です。
関連論文リスト
- CAPrompt: Cyclic Prompt Aggregation for Pre-Trained Model Based Class Incremental Learning [12.249938312431993]
本稿では,タスクID予測への依存性を排除するために,新しいCAPromptアグリゲーション法を提案する。
凹凸条件下では、集約プロンプトは単一のタスク固有のプロンプトを選択するよりも低いエラーを達成する。
提案したCAPromptは最先端手法を2%-3%上回る性能を示した。
論文 参考訳(メタデータ) (2024-12-12T04:34:28Z) - Task Facet Learning: A Structured Approach to Prompt Optimization [13.423478909210353]
本稿では,タスクの複数の面をトレーニング例から学習するアルゴリズムを提案する。
提案アルゴリズムであるUniPromptは、入力空間をクラスタ化し、クラスタ化されたバッチを使用する。
複数のデータセットと実世界のタスクに対する経験的評価は、ショートネームを用いて生成されたプロンプトが、人間のチューニングしたプロンプトと最先端の手法によるプロンプトよりも高い精度が得られることを示している。
論文 参考訳(メタデータ) (2024-06-15T04:54:26Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Automatic Prompt Optimization with "Gradient Descent" and Beam Search [64.08364384823645]
大きな言語モデル(LLM)は汎用エージェントとして優れたパフォーマンスを示しているが、その能力はプロンプトに大きく依存している。
この問題に対する単純で非パラメトリックな解である自動プロンプト最適化(APO)を提案する。
APOはデータのミニバッチを使用して、現在のプロンプトを批判する自然言語「段階的」を形成する。
次に、勾配の反対の意味方向のプロンプトを編集することで、勾配をプロンプトに「伝播」する。
論文 参考訳(メタデータ) (2023-05-04T15:15:22Z) - GPS: Genetic Prompt Search for Efficient Few-shot Learning [15.28478657477945]
遺伝的プロンプト探索(GPS)を導入し,プロンプトによる数発学習を改善する。
GPSは勾配のないため、モデルパラメータを更新する必要はなく、小さな検証セットのみである。
また,本手法は,プロンプトチューニングなどのパラメータ効率のよいチューニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-31T03:36:21Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。