論文の概要: TRPrompt: Bootstrapping Query-Aware Prompt Optimization from Textual Rewards
- arxiv url: http://arxiv.org/abs/2507.18618v1
- Date: Thu, 24 Jul 2025 17:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.230799
- Title: TRPrompt: Bootstrapping Query-Aware Prompt Optimization from Textual Rewards
- Title(参考訳): TRPrompt: テキストリワードからのクエリ対応プロンプト最適化のブートストラップ
- Authors: Andreea Nica, Ivan Zakazov, Nicolas Mario Baldwin, Saibo Geng, Robert West,
- Abstract要約: 本稿では,テキストフィードバックをプロンプトモデルのトレーニングに組み込むことでアプローチを統一する,テキスト・リワード・プロンプト・フレームワーク(TRPrompt)を紹介する。
我々のフレームワークは、事前のデータセット収集を必要とせず、生成されたプロンプトに対するフィードバックによって反復的に改善されている。
LLMの能力と結合して「良い」プロンプトとは何かという概念を内包すると、テキスト報酬によって提供される高分解能信号は、最先端のクエリ固有のプロンプトを生成するプロンプトモデルを訓練することができる。
- 参考スコア(独自算出の注目度): 9.107586166322923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt optimization improves the reasoning abilities of large language models (LLMs) without requiring parameter updates to the target model. Following heuristic-based "Think step by step" approaches, the field has evolved in two main directions: while one group of methods uses textual feedback to elicit improved prompts from general-purpose LLMs in a training-free way, a concurrent line of research relies on numerical rewards to train a special prompt model, tailored for providing optimal prompts to the target model. In this paper, we introduce the Textual Reward Prompt framework (TRPrompt), which unifies these approaches by directly incorporating textual feedback into training of the prompt model. Our framework does not require prior dataset collection and is being iteratively improved with the feedback on the generated prompts. When coupled with the capacity of an LLM to internalize the notion of what a "good" prompt is, the high-resolution signal provided by the textual rewards allows us to train a prompt model yielding state-of-the-art query-specific prompts for the problems from the challenging math datasets GSMHard and MATH.
- Abstract(参考訳): Prompt最適化は、ターゲットモデルへのパラメータ更新を必要とせずに、大きな言語モデル(LLM)の推論能力を改善する。
ヒューリスティック・ベースの「ステップ・バイ・ステップ」アプローチに従って、フィールドは2つの方向に進化してきた: 1つの手法群がテキストフィードバックを使用して、訓練無しで汎用LLMから改善されたプロンプトを引き出す一方で、並列研究のラインは、特別なプロンプトモデルを訓練するために数値的な報酬に依存し、ターゲットモデルに最適なプロンプトを提供するように調整されている。
本稿では,テキストフィードバックを直接組み込んだテキスト・リワード・プロンプト・フレームワーク(TRPrompt)について紹介する。
我々のフレームワークは、事前のデータセット収集を必要とせず、生成されたプロンプトに対するフィードバックによって反復的に改善されている。
LLMの能力と組み合わせて「良い」プロンプトとは何かという概念を内包すると、テキスト報酬によって提供される高分解能信号は、挑戦的な数学データセット GSMHard と MATH から問題に対する最先端のクエリ特異的プロンプトを生成するプロンプトモデルを訓練することができる。
関連論文リスト
- Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。