論文の概要: Dynamic Policy Induction for Adaptive Prompt Optimization: Bridging the Efficiency-Accuracy Gap via Lightweight Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.25267v1
- Date: Sun, 28 Sep 2025 07:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.219259
- Title: Dynamic Policy Induction for Adaptive Prompt Optimization: Bridging the Efficiency-Accuracy Gap via Lightweight Reinforcement Learning
- Title(参考訳): 適応型プロンプト最適化のための動的ポリシー誘導:軽量強化学習による効率・精度ギャップのブリッジ
- Authors: Jiexi Xu,
- Abstract要約: 本稿では,1ステップのマルコフ決定プロセス(MDP)として適応戦略選択を形式化する軽量強化学習フレームワークであるPrompt Policy Network(PPN)を紹介する。
算術的推論ベンチマークの実験では、PPNは競争精度を維持しながら自己整合性よりも61.5%のトークンコスト削減を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Language Models (LLMs) depends heavily on the chosen prompting strategy, yet static approaches such as Zero-Shot, Few-Shot, or Chain-of-Thought (CoT) impose a rigid efficiency-accuracy trade-off. Highly accurate strategies like Self-Consistency (SC) incur substantial computational waste on simple tasks, while lightweight methods often fail on complex inputs. This paper introduces the Prompt Policy Network (PPN), a lightweight reinforcement learning framework that formalizes adaptive strategy selection as a single-step Markov Decision Process (MDP). The PPN, trained with Proximal Policy Optimization (PPO) and guided by a resource-explicit reward function, learns to allocate costly reasoning strategies only when necessary. Experiments on arithmetic reasoning benchmarks demonstrate that PPN achieves superior performance on the efficiency-accuracy Pareto front, delivering up to 61.5% token cost reduction compared to Self-Consistency while maintaining competitive accuracy. This work contributes a systematic, adaptive framework for cost-efficient LLM deployment, advancing the design of lightweight optimization techniques for scalable and sustainable language model applications.
- Abstract(参考訳): 大規模言語モデル(LLM)のパフォーマンスは、選択したプロンプト戦略に大きく依存するが、Zero-Shot、Few-Shot、Chain-of-Thought(CoT)のような静的アプローチでは、厳格な効率と精度のトレードオフが課される。
自己整合性(SC)のような高精度な戦略は、単純なタスクでかなりの計算量の無駄を発生させるが、軽量なメソッドは複雑な入力で失敗することが多い。
本稿では,適応戦略選択を1ステップのマルコフ決定プロセス(MDP)として形式化する軽量強化学習フレームワークであるPrompt Policy Network(PPN)を紹介する。
PPNは、PPO(Proximal Policy Optimization)で訓練され、リソース要求の報酬関数によってガイドされ、必要なときにのみコストのかかる推論戦略を割り当てることを学ぶ。
算術的推論ベンチマークの実験では、PPNは効率・精度のParetoにおいて優れた性能を示し、競争精度を維持しながら、自己整合性よりも61.5%のトークンコスト削減を実現している。
この研究は、コスト効率の良いLLMデプロイメントのための体系的で適応的なフレームワークを提供し、スケーラブルで持続可能な言語モデルアプリケーションのための軽量な最適化技術の設計を推進している。
関連論文リスト
- Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T02:53:17Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Constrain Alignment with Sparse Autoencoders [45.131670081186]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。