論文の概要: GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer
- arxiv url: http://arxiv.org/abs/2602.03358v1
- Date: Tue, 03 Feb 2026 10:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.392549
- Title: GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer
- Title(参考訳): GFlowPO: 言語モデルプロンプト最適化としての生成フローネットワーク
- Authors: Junmo Cho, Suhan Kim, Sangjune An, Minsu Kim, Dong Bok Lee, Heejun Lee, Sung Ju Hwang, Hae Beom Lee,
- Abstract要約: GFlowPOは、メタプロンプト参照-LMにより正規化される潜在プロンプトに対する後部推論問題としてプロンプトをキャストする。
GFlowPOは、最近の離散的なプロンプト最適化ベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 51.31263673158136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding effective prompts for language models (LMs) is critical yet notoriously difficult: the prompt space is combinatorially large, rewards are sparse due to expensive target-LM evaluation. Yet, existing RL-based prompt optimizers often rely on on-policy updates and a meta-prompt sampled from a fixed distribution, leading to poor sample efficiency. We propose GFlowPO, a probabilistic prompt optimization framework that casts prompt search as a posterior inference problem over latent prompts regularized by a meta-prompted reference-LM prior. In the first step, we fine-tune a lightweight prompt-LM with an off-policy Generative Flow Network (GFlowNet) objective, using a replay-based training policy that reuses past prompt evaluations to enable sample-efficient exploration. In the second step, we introduce Dynamic Memory Update (DMU), a training-free mechanism that updates the meta-prompt by injecting both (i) diverse prompts from a replay buffer and (ii) top-performing prompts from a small priority queue, thereby progressively concentrating the search process on high-reward regions. Across few-shot text classification, instruction induction benchmarks, and question answering tasks, GFlowPO consistently outperforms recent discrete prompt optimization baselines.
- Abstract(参考訳): 言語モデル(LM)の効果的なプロンプトを見つけることは、非常に難しい。
しかし、既存のRLベースのプロンプトオプティマイザは、しばしばオン・ポリシーの更新と、固定された分布からサンプリングされたメタ・プロンプトに依存し、サンプル効率が低下する。
本稿では,メタプロンプト参照-LMにより正規化される遅延プロンプトよりも後部推論問題としてプロンプト探索をキャストする確率論的プロンプト最適化フレームワークであるGFlowPOを提案する。
最初のステップでは、過去のプロンプト評価を再利用してサンプル効率の高い探索を可能にするリプレイベースのトレーニングポリシーを用いて、オフポリティクス生成フローネットワーク(GFlowNet)を目標とした軽量プロンプトLMを微調整する。
第2のステップでは、トレーニング不要なメカニズムであるDynamic Memory Update(DMU)を紹介します。
(i)リプレイバッファからの多様なプロンプト
第二に、小規模の優先キューからの最高性能のプロンプトにより、上位領域の探索プロセスを段階的に集中させる。
数ショットのテキスト分類、インストラクションインジェクションベンチマーク、質問応答タスク全体において、GFlowPOは、最近の離散的なプロンプト最適化ベースラインよりも一貫して優れています。
関連論文リスト
- TRPrompt: Bootstrapping Query-Aware Prompt Optimization from Textual Rewards [9.107586166322923]
本稿では,テキストフィードバックをプロンプトモデルのトレーニングに組み込むことでアプローチを統一する,テキスト・リワード・プロンプト・フレームワーク(TRPrompt)を紹介する。
我々のフレームワークは、事前のデータセット収集を必要とせず、生成されたプロンプトに対するフィードバックによって反復的に改善されている。
LLMの能力と結合して「良い」プロンプトとは何かという概念を内包すると、テキスト報酬によって提供される高分解能信号は、最先端のクエリ固有のプロンプトを生成するプロンプトモデルを訓練することができる。
論文 参考訳(メタデータ) (2025-07-24T17:54:44Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。