論文の概要: SIPDO: Closed-Loop Prompt Optimization via Synthetic Data Feedback
- arxiv url: http://arxiv.org/abs/2505.19514v1
- Date: Mon, 26 May 2025 04:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.17891
- Title: SIPDO: Closed-Loop Prompt Optimization via Synthetic Data Feedback
- Title(参考訳): SIPDO: 合成データフィードバックによるクローズドループプロンプト最適化
- Authors: Yaoning Yu, Ye Yu, Kai Wei, Haojing Luo, Haohan Wang,
- Abstract要約: SIPDO(Self-Improving Prompts through Data-Augmented Optimization)は,素早い学習のためのクローズドループフレームワークである。
SIPDOは、合成データジェネレータとプロンプトを結合し、ジェネレータは、現在のプロンプトの弱点を明らかにし、応答時のプロンプトを洗練する新しい例を生成する。
このフィードバック駆動ループは、外部の監視や新しいタスクへのアクセスを前提とせずに、迅速なパフォーマンスの体系的な改善を可能にする。
- 参考スコア(独自算出の注目度): 17.851957960438483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt quality plays a critical role in the performance of large language models (LLMs), motivating a growing body of work on prompt optimization. Most existing methods optimize prompts over a fixed dataset, assuming static input distributions and offering limited support for iterative improvement. We introduce SIPDO (Self-Improving Prompts through Data-Augmented Optimization), a closed-loop framework for prompt learning that integrates synthetic data generation into the optimization process. SIPDO couples a synthetic data generator with a prompt optimizer, where the generator produces new examples that reveal current prompt weaknesses and the optimizer incrementally refines the prompt in response. This feedback-driven loop enables systematic improvement of prompt performance without assuming access to external supervision or new tasks. Experiments across question answering and reasoning benchmarks show that SIPDO outperforms standard prompt tuning methods, highlighting the value of integrating data synthesis into prompt learning workflows.
- Abstract(参考訳): プロンプトの品質は、大規模言語モデル(LLM)のパフォーマンスにおいて重要な役割を果たす。
既存のほとんどのメソッドは、静的な入力分布を仮定して、固定データセットのプロンプトを最適化し、反復的改善の限定的なサポートを提供する。
SIPDO(Self-Improving Prompts through Data-Augmented Optimization)は,合成データ生成を最適化プロセスに統合する,素早い学習のためのクローズドループフレームワークである。
SIPDOは、合成データジェネレータとプロンプトオプティマイザを結合し、ジェネレータは、現在のプロンプトの弱点を明らかにする新しい例を生成し、オプティマイザはレスポンスのプロンプトを漸進的に洗練する。
このフィードバック駆動ループは、外部の監視や新しいタスクへのアクセスを前提とせずに、迅速なパフォーマンスの体系的な改善を可能にする。
質問応答と推論ベンチマークによる実験では、SIPDOは標準のプロンプトチューニング手法よりも優れており、データ合成を素早い学習ワークフローに統合する価値を強調している。
関連論文リスト
- ADO: Automatic Data Optimization for Inputs in LLM Prompts [36.850626629231705]
本研究では,プロンプト内の入力データの最適化を通じて,Large Language Models (LLM) の性能を向上させる新しい手法を提案する。
本稿では,コンテンツエンジニアリングと構造改革という,入力データ最適化のための2つの戦略を導入する。
論文 参考訳(メタデータ) (2025-02-17T04:50:41Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。
FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。
5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文 参考訳(メタデータ) (2024-02-19T03:56:44Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。