Fugu-MT 論文翻訳(概要): Discrete Prompt Optimization via Constrained Generation for Zero-shot Re-ranker

論文の概要: Discrete Prompt Optimization via Constrained Generation for Zero-shot Re-ranker

arxiv url: http://arxiv.org/abs/2305.13729v1
Date: Tue, 23 May 2023 06:35:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 18:35:29.574007
Title: Discrete Prompt Optimization via Constrained Generation for Zero-shot Re-ranker
Title（参考訳）: ゼロショットリランカの制約生成による離散プロンプト最適化
Authors: Sukmin Cho, Soyeong Jeong, Jeongyeon Seo and Jong C. Park
Abstract要約: 大規模言語モデル (LLM) はゼロショットリランカとして, 優れた結果が得られる。 LLMはプロンプトに大きく依存しており、ゼロショットリランカのプロンプトの影響と最適化はまだ検討されていない。本稿では,新しい離散的プロンプト最適化手法であるConstrained Prompt Generation(Co-Prompt)を提案する。
参考スコア（独自算出の注目度）: 0.2580765958706853
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Re-rankers, which order retrieved documents with respect to the relevance score on the given query, have gained attention for the information retrieval (IR) task. Rather than fine-tuning the pre-trained language model (PLM), the large-scale language model (LLM) is utilized as a zero-shot re-ranker with excellent results. While LLM is highly dependent on the prompts, the impact and the optimization of the prompts for the zero-shot re-ranker are not explored yet. Along with highlighting the impact of optimization on the zero-shot re-ranker, we propose a novel discrete prompt optimization method, Constrained Prompt generation (Co-Prompt), with the metric estimating the optimum for re-ranking. Co-Prompt guides the generated texts from PLM toward optimal prompts based on the metric without parameter update. The experimental results demonstrate that Co-Prompt leads to outstanding re-ranking performance against the baselines. Also, Co-Prompt generates more interpretable prompts for humans against other prompt optimization methods.
Abstract（参考訳）: 検索された文書を所定のクエリの関連点に関して注文した再ランカは、情報検索(IR)タスクに注目されている。事前訓練された言語モデル(PLM)を微調整する代わりに、大規模言語モデル(LLM)をゼロショットリランカとして、優れた結果が得られる。 LLMはプロンプトに大きく依存するが、ゼロショット再ランカに対するプロンプトの影響と最適化はまだ検討されていない。ゼロショット再ランカに対する最適化の影響を強調するとともに,再ランクの最適度を推定する手法として,新しい離散的なプロンプト生成手法であるConstrained Prompt(Co-Prompt)を提案する。 Co-Prompt はパラメータを更新せずにパラメータに基づいて PLM から生成されたテキストを最適なプロンプトに導く。実験の結果,共同プロンプトは,ベースラインに対する性能向上に寄与することが示された。また、Co-Promptは他のプロンプト最適化手法に対してより解釈可能なプロンプトを生成する。

関連論文リスト

TRPrompt: Bootstrapping Query-Aware Prompt Optimization from Textual Rewards [9.107586166322923]
本稿では,テキストフィードバックをプロンプトモデルのトレーニングに組み込むことでアプローチを統一する,テキスト・リワード・プロンプト・フレームワーク(TRPrompt)を紹介する。我々のフレームワークは、事前のデータセット収集を必要とせず、生成されたプロンプトに対するフィードバックによって反復的に改善されている。 LLMの能力と結合して「良い」プロンプトとは何かという概念を内包すると、テキスト報酬によって提供される高分解能信号は、最先端のクエリ固有のプロンプトを生成するプロンプトモデルを訓練することができる。
論文参考訳（メタデータ） (2025-07-24T17:54:44Z)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
SIPDO: Closed-Loop Prompt Optimization via Synthetic Data Feedback [17.851957960438483]
SIPDO(Self-Improving Prompts through Data-Augmented Optimization)は,素早い学習のためのクローズドループフレームワークである。 SIPDOは、合成データジェネレータとプロンプトを結合し、ジェネレータは、現在のプロンプトの弱点を明らかにし、応答時のプロンプトを洗練する新しい例を生成する。このフィードバック駆動ループは、外部の監視や新しいタスクへのアクセスを前提とせずに、迅速なパフォーマンスの体系的な改善を可能にする。
論文参考訳（メタデータ） (2025-05-26T04:56:48Z)
HPSS: Heuristic Prompting Strategy Search for LLM Evaluators [81.09765876000208]
我々はHuristic Prompting Strategy Search (HPSS)と呼ばれる新しい自動プロンプト戦略最適化手法を提案する。遺伝的アルゴリズムにインスパイアされ、HPSSは反復探索を行い、評価者に対する適切な手順を見つける。 4つの評価課題にわたる大規模な実験により,HPSSの有効性が示された。
論文参考訳（メタデータ） (2025-02-18T16:46:47Z)
Fast Prompt Alignment for Text-to-Image Generation [28.66112701912297]
本稿では,FPA(Fast Prompt Alignment)を提案する。 FPAは単一命令プロンプトのパラフレーズに大規模言語モデル(LLM)を使用し、その後最適化されたプロンプトで微調整やテキスト内学習を行う。 FPAは、処理時間のごく一部で競合するテキスト画像アライメントスコアを達成する。
論文参考訳（メタデータ） (2024-12-11T18:58:41Z)
Efficient and Accurate Prompt Optimization: the Benefit of Memory in Exemplar-Guided Reflection [19.020514286500006]
本稿では,より効率的かつ正確なプロンプト最適化を実現するために,メモリ機構を備えたExemplar-Guided Reflectionを提案する。具体的には、生成した例によってフィードバック生成がさらにガイドされるような、模擬誘導反射機構を設計する。実験的な評価により,提案手法は従来の最先端技術よりも少ない最適化手順で優れていることが示された。
論文参考訳（メタデータ） (2024-11-12T00:07:29Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Large Language Models Prompting With Episodic Memory [53.8690170372303]
本稿では,POEM(PrOmpting with Episodic Memory)を提案する。テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
論文参考訳（メタデータ） (2024-08-14T11:19:28Z)
Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文参考訳（メタデータ） (2024-05-27T16:49:29Z)
Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。このような最適化では、以前見過ごされたクエリ依存の目的を特定します。本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文参考訳（メタデータ） (2023-09-13T01:12:52Z)
RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。 RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-05-25T07:50:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。