論文の概要: Prior Prompt Engineering for Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.14157v1
- Date: Tue, 20 May 2025 10:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.049847
- Title: Prior Prompt Engineering for Reinforcement Fine-Tuning
- Title(参考訳): 補強ファインチューニングのためのプリ・プロンプト・エンジニアリング
- Authors: Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul,
- Abstract要約: 我々は、強化微細チューニング(RFT)の文脈における先行プロンプトエンジニアリング(pPE)について検討する。
推論時プロンプトエンジニアリング (iPE) にヒントを得て, 推論, 計画, コードベース推論, 知識リコール, および null-example 利用の5つの戦略を対応する pPE アプローチに翻訳する。
以上の結果から,全てのpPE学習モデルがiPE学習モデルを上回ることがわかった。
- 参考スコア(独自算出の注目度): 16.695988860068315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates prior prompt engineering (pPE) in the context of reinforcement fine-tuning (RFT), where language models (LMs) are incentivized to exhibit behaviors that maximize performance through reward signals. While existing RFT research has primarily focused on algorithms, reward shaping, and data curation, the design of the prior prompt--the instructions prepended to queries during training to elicit behaviors such as step-by-step reasoning--remains underexplored. We investigate whether different pPE approaches can guide LMs to internalize distinct behaviors after RFT. Inspired by inference-time prompt engineering (iPE), we translate five representative iPE strategies--reasoning, planning, code-based reasoning, knowledge recall, and null-example utilization--into corresponding pPE approaches. We experiment with Qwen2.5-7B using each of the pPE approaches, then evaluate performance on in-domain and out-of-domain benchmarks (e.g., AIME2024, HumanEval+, and GPQA-Diamond). Our results show that all pPE-trained models surpass their iPE-prompted counterparts, with the null-example pPE approach achieving the largest average performance gain and the highest improvement on AIME2024 and GPQA-Diamond, surpassing the commonly used reasoning approach. Furthermore, by adapting a behavior-classification framework, we demonstrate that different pPE strategies instill distinct behavioral styles in the resulting models. These findings position pPE as a powerful yet understudied axis for RFT.
- Abstract(参考訳): 本稿では、言語モデル(LM)にインセンティブを与えて、報酬信号による性能を最大化する動作を示す強化微調整(RFT)の文脈における先行的プロンプトエンジニアリング(pPE)について検討する。
既存のRFT研究は主にアルゴリズム、報酬形成、データキュレーションに重点を置いているが、事前のプロンプトの設計 - トレーニング中にクエリに先立って、ステップバイステップの推論のような振る舞いを誘発する命令- は、未調査のまま残されている。
我々は、異なるpPEアプローチが、RTT後の異なる挙動を内在化するためにLMを誘導できるかどうかを検討する。
推論時プロンプトエンジニアリング (iPE) にヒントを得て, 推論, 計画, コードベース推論, 知識リコール, および null-example 利用の5つの戦略を対応する pPE アプローチに翻訳する。
それぞれのpPEアプローチを用いてQwen2.5-7Bを実験し、ドメイン内およびドメイン外ベンチマーク(例えば、AIME2024、HumanEval+、GPQA-Diamond)の性能を評価する。
以上の結果から,全てのpPE学習モデルがiPE学習モデルを上回る結果が得られ,Null-example pPEアプローチはAIME2024およびGPQA-Diamondにおける平均性能向上を達成し,一般的な推論手法を超越した。
さらに、行動分類フレームワークを適用することで、異なるpPE戦略が結果モデルに異なる行動スタイルを具現化することを示す。
以上の結果から,pPEはRFTの強力な研究対象の軸として位置づけられた。
関連論文リスト
- Of All StrIPEs: Investigating Structure-informed Positional Encoding for Efficient Music Generation [1.3108652488669736]
効率的なPEの両ファミリを解析するためのカーネル手法に基づく統一的なフレームワークを提案する。
我々は,時間的シーケンスから因果関係を抽出できるRoPEと呼ばれる新しいPE手法を開発した。
経験的検証のために、私たちは象徴的な音楽生成タスク、すなわちメロディ調和を使用する。
論文 参考訳(メタデータ) (2025-04-07T11:51:29Z) - Reward Prediction Error Prioritisation in Experience Replay: The RPE-PER Method [1.600323605807673]
Reward Predictive Error Prioritised Experience Replay (RPE-PER)を紹介する。
RPE-PERは、RPEに基づいてバッファ内での経験を優先する。
本手法では,標準的な批評家ネットワークが生成するQ値に加えて,報酬を予測する批評家ネットワークであるEMCNを用いる。
論文 参考訳(メタデータ) (2025-01-30T02:09:35Z) - Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。
自己教師付き学習方式により,提案手法は性能と効率のバランスが良好である。特にPARは柔軟であり,複数のプルーニングバージョンを提供し,様々なプルーニングシナリオに対処する。
論文 参考訳(メタデータ) (2024-12-09T13:02:35Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Higher-Order Generalization Bounds: Learning Deep Probabilistic Programs
via PAC-Bayes Objectives [0.0]
DPP法を用いてPAC-Bayes一般化境界をプログラムとして表現するためのフレームワークを提供する。
特に, DPP の手法は DPP 表現の構成性に基づく一般化境界の導出に有効であることを示す。
そこで本研究では,高次確率的プログラムに対する原則的学習目標について紹介する。
論文 参考訳(メタデータ) (2022-03-30T01:14:56Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。