Fugu-MT 論文翻訳(概要): GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer

論文の概要: GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer

arxiv url: http://arxiv.org/abs/2602.03358v1
Date: Tue, 03 Feb 2026 10:30:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-04 18:37:15.392549
Title: GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer
Title（参考訳）: GFlowPO: 言語モデルプロンプト最適化としての生成フローネットワーク
Authors: Junmo Cho, Suhan Kim, Sangjune An, Minsu Kim, Dong Bok Lee, Heejun Lee, Sung Ju Hwang, Hae Beom Lee,
Abstract要約: GFlowPOは、メタプロンプト参照-LMにより正規化される潜在プロンプトに対する後部推論問題としてプロンプトをキャストする。 GFlowPOは、最近の離散的なプロンプト最適化ベースラインを一貫して上回っている。
参考スコア（独自算出の注目度）: 51.31263673158136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Finding effective prompts for language models (LMs) is critical yet notoriously difficult: the prompt space is combinatorially large, rewards are sparse due to expensive target-LM evaluation. Yet, existing RL-based prompt optimizers often rely on on-policy updates and a meta-prompt sampled from a fixed distribution, leading to poor sample efficiency. We propose GFlowPO, a probabilistic prompt optimization framework that casts prompt search as a posterior inference problem over latent prompts regularized by a meta-prompted reference-LM prior. In the first step, we fine-tune a lightweight prompt-LM with an off-policy Generative Flow Network (GFlowNet) objective, using a replay-based training policy that reuses past prompt evaluations to enable sample-efficient exploration. In the second step, we introduce Dynamic Memory Update (DMU), a training-free mechanism that updates the meta-prompt by injecting both (i) diverse prompts from a replay buffer and (ii) top-performing prompts from a small priority queue, thereby progressively concentrating the search process on high-reward regions. Across few-shot text classification, instruction induction benchmarks, and question answering tasks, GFlowPO consistently outperforms recent discrete prompt optimization baselines.
Abstract（参考訳）: 言語モデル(LM)の効果的なプロンプトを見つけることは、非常に難しい。しかし、既存のRLベースのプロンプトオプティマイザは、しばしばオン・ポリシーの更新と、固定された分布からサンプリングされたメタ・プロンプトに依存し、サンプル効率が低下する。本稿では,メタプロンプト参照-LMにより正規化される遅延プロンプトよりも後部推論問題としてプロンプト探索をキャストする確率論的プロンプト最適化フレームワークであるGFlowPOを提案する。最初のステップでは、過去のプロンプト評価を再利用してサンプル効率の高い探索を可能にするリプレイベースのトレーニングポリシーを用いて、オフポリティクス生成フローネットワーク(GFlowNet)を目標とした軽量プロンプトLMを微調整する。第2のステップでは、トレーニング不要なメカニズムであるDynamic Memory Update(DMU)を紹介します。 (i)リプレイバッファからの多様なプロンプト第二に、小規模の優先キューからの最高性能のプロンプトにより、上位領域の探索プロセスを段階的に集中させる。数ショットのテキスト分類、インストラクションインジェクションベンチマーク、質問応答タスク全体において、GFlowPOは、最近の離散的なプロンプト最適化ベースラインよりも一貫して優れています。

論文の概要: GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer

関連論文リスト