論文の概要: Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization
- arxiv url: http://arxiv.org/abs/2509.02093v1
- Date: Tue, 02 Sep 2025 08:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.965723
- Title: Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization
- Title(参考訳): 比較による改善: 自動プロンプト最適化のための検索拡張コントラスト推論
- Authors: Juhyeon Lee, Wonduk Seo, Hyunjin An, Seunghyun Lee, Yi Bu,
- Abstract要約: 提案するCRPO(Contrastive Reasoning Prompt Optimization)は,検索拡張推論プロセスとして迅速な最適化を定式化する新しいフレームワークである。
私たちのアプローチでは、ヘルプステア2データセットからトップk参照プロンプトを検索します。
CRPOは、高品位と低品位を明示的に対比することにより、特定のプロンプトが失敗する理由を推論し、より堅牢で解釈可能な最適化を実現する。
- 参考スコア(独自算出の注目度): 6.3914079241545885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic prompt optimization has recently emerged as a strategy for improving the quality of prompts used in Large Language Models (LLMs), with the goal of generating more accurate and useful responses. However, most prior work focuses on direct prompt refinement or model fine-tuning, overlooking the potential of leveraging LLMs' inherent reasoning capability to learn from contrasting examples. In this paper, we present Contrastive Reasoning Prompt Optimization (CRPO), a novel framework that formulates prompt optimization as a retrieval augmented reasoning process. Our approach retrieves top k reference prompts from the HelpSteer2 dataset, an open-source collection annotated for helpfulness, correctness, coherence, complexity, and verbosity, and constructs two complementary optimization paradigms: (1) tiered contrastive reasoning, where the LLM compares high, medium, and low quality prompts to refine its own generation through reflective reasoning, and (2) multi-metric contrastive reasoning, where the LLM analyzes the best prompts along each evaluation dimension and integrates their strengths into an optimized prompt. By explicitly contrasting high and low quality exemplars, CRPO enables the model to deduce why certain prompts succeed while others fail, thereby achieving more robust and interpretable optimization. Experimental results on the HelpSteer2 benchmark demonstrate that CRPO significantly outperforms baselines. Our findings highlight the promise of contrastive, retrieval-augmented reasoning for advancing automatic prompt optimization.
- Abstract(参考訳): 自動プロンプト最適化は、最近、より正確で有用な応答を生成することを目的として、Large Language Models (LLMs)で使われるプロンプトの品質を改善する戦略として登場した。
しかし、ほとんどの先行研究は直接的即興改良やモデル微調整に重点を置いており、LLMの本質的な推論能力を活用して、対照的な例から学ぶ可能性を見越している。
本稿では,提案するCRPO(Contrastive Reasoning Prompt Optimization)について述べる。
提案手法では,1)LLMが高,中,低品質のプロンプトを反射的推論で比較し,(2)LLMが各評価次元に沿って最適なプロンプトを解析し,その強度を最適化プロンプトに統合する,2つの相補的最適化パラダイムを構築している。
CRPOは、高品位と低品位を明示的に対比することにより、特定のプロンプトが失敗する理由を推論し、より堅牢で解釈可能な最適化を実現する。
HelpSteer2ベンチマークの実験結果は、CRPOがベースラインを大幅に上回っていることを示している。
本研究は,自動プロンプト最適化を推し進める上で,コントラスト的・検索強化推論の可能性を浮き彫りにするものである。
関連論文リスト
- Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment [40.71270945505082]
大規模言語モデル(LLM)は、様々な社会的および意思決定プロセスに統合されつつある。
人間のフィードバックからの強化学習(RLHF)のような従来の手法は、微調整モデルパラメータによるアライメントを実現する。
対照的に、迅速な最適化はLLMアライメントのためのRLHFの代替となる。
論文 参考訳(メタデータ) (2025-01-07T03:14:39Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。