論文の概要: CROP: Token-Efficient Reasoning in Large Language Models via Regularized Prompt Optimization
- arxiv url: http://arxiv.org/abs/2604.14214v1
- Date: Wed, 08 Apr 2026 19:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:29.911067
- Title: CROP: Token-Efficient Reasoning in Large Language Models via Regularized Prompt Optimization
- Title(参考訳): CROP:正規化プロンプト最適化による大規模言語モデルにおけるToken-Efficient Reasoning
- Authors: Deep Shah, Sanket Badhe, Nehal Kathrotia, Priyanka Tiwari,
- Abstract要約: 推論技術を利用した大規模言語モデルではタスクパフォーマンスが向上するが、冗長な生成による遅延やトークンコストが大幅に向上する。
本稿では,応答長の正規化を導入するAPO手法であるPrompts (CROP) のコスト正規化最適化を提案する。
我々は、複雑な推論データセット、特にGSM8K、LogiQA、BIG-Bench Hardに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models utilizing reasoning techniques improve task performance but incur significant latency and token costs due to verbose generation. Existing automatic prompt optimization(APO) frameworks target task accuracy exclusively at the expense of generating long reasoning traces. We propose Cost-Regularized Optimization of Prompts (CROP), an APO method that introduces regularization on response length by generating textual feedback in addition to standard accuracy feedback. This forces the optimization process to produce prompts that elicit concise responses containing only critical information and reasoning. We evaluate our approach on complex reasoning datasets, specifically GSM8K, LogiQA and BIG-Bench Hard. We achieved an 80.6\% reduction in token consumption while maintaining competitive accuracy, seeing only a nominal decline in performance. This presents a pragmatic solution for deploying token-efficient and cost-effective agentic AI systems in production pipelines.
- Abstract(参考訳): 推論技術を利用した大規模言語モデルではタスクパフォーマンスが向上するが、冗長生成による遅延やトークンコストが大幅に向上する。
既存の自動プロンプト最適化(APO)フレームワークは、長い推論トレースを生成するためにのみタスク精度を目標としています。
本稿では,標準精度のフィードバックに加えて,テキストフィードバックを生成することで応答長の正規化を実現するAPO手法であるCROPを提案する。
これにより最適化プロセスは、重要な情報と推論のみを含む簡潔な応答を誘発するプロンプトを生成する。
我々は、複雑な推論データセット、特にGSM8K、LogiQA、BIG-Bench Hardに対するアプローチを評価した。
競争精度を維持しながら, 80.6 % のトークン消費削減を実現した。
これは、トークン効率とコスト効率のよいエージェントAIシステムをプロダクションパイプラインにデプロイするための実用的なソリューションである。
関連論文リスト
- IAPO: Information-Aware Policy Optimization for Token-Efficient Reasoning [47.55414301744048]
既存のシーケンスレベルの報酬形成手法はトークン間での推論の取り組みを限定的に制御できると主張している。
我々は,各トークンの条件付き相互情報に基づいてトークンの利点を割り当てる情報理論後学習フレームワークIAPOを提案する。
IAPOは推論精度を常に改善し、推論長を最大36%削減し、既存のトークン効率のRL法より優れている。
論文 参考訳(メタデータ) (2026-02-22T05:30:14Z) - Optimizing Prompts for Large Language Models: A Causal Approach [8.091354120300972]
本稿では,因果推定の問題として設計を即時的に再編成するフレームワークを提案する。
CPOは、人間工学的なプロンプトや最先端の自動化よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-02T06:37:11Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [39.61818305829112]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。