論文の概要: Post Reasoning: Improving the Performance of Non-Thinking Models at No Cost
- arxiv url: http://arxiv.org/abs/2605.06165v1
- Date: Thu, 07 May 2026 12:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.792994
- Title: Post Reasoning: Improving the Performance of Non-Thinking Models at No Cost
- Title(参考訳): ポスト推論:ノンシンクモデルの性能を無償で向上する
- Authors: Richmond Sin Jing Xuan, Rishabh Bhardwaj, Soujanya Poria,
- Abstract要約: Post-Reasoningは、最終応答を生成した後の回答を正当化するように条件付けすることで、命令調整モデルを改善する。
13) オープンおよびプロプライエタリなモデル,(4) モデルファミリ,(9) 多様な推論と知識集約型ベンチマークにまたがるベンチマーク設定の評価を行った。
- 参考スコア(独自算出の注目度): 39.551480836237424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the widespread adoption of Large Language Models (LLMs) accelerates, token consumption from intermediate reasoning traces increasingly contributes to inference latency and operational cost. Recent studies suggest that many real-world tasks require little to no explicit reasoning, with additional reasoning sometimes even degrading performance. In this work, we propose \textbf{Post-Reasoning}, a simple yet effective approach that improves instruction-tuned models by conditioning them to justify their answers after generating the final response. By design, it enables the final answer to be obtained without additional latency or token cost, while still improving performance through simple instruction augmentation. We evaluate Post-Reasoning across \(117\) model--benchmark settings spanning \(13\) open and proprietary models, \(4\) model families, and \(9\) diverse reasoning and knowledge-intensive benchmarks, including AMC, HMMT, GSM8K, GPQA, MMLU-Pro, and BIG-Bench Hard. Post-Reasoning improves performance in over \(88.19\%\) of evaluated settings, achieving a mean relative improvements of \(17.37\%\). Furthermore, we propose supervised post-reason tuning, which further improves performance in over \(91.11\%\) of evaluated settings, and exceeds the prompt-based post-reasoning baseline by an average of \(8.01\%\), demonstrating that post-reasoning can be effectively internalized through training. Ultimately, Post-Reasoning establishes a new performance ceiling for direct-answer capabilities.
- Abstract(参考訳): LLM(Large Language Models)の普及が加速するにつれ、中間的推論トレースからのトークン消費は、推論遅延と運用コストにますます寄与する。
最近の研究では、多くの実世界のタスクは明示的な推論をほとんど必要とせず、追加の推論はパフォーマンスを劣化させることもあることが示唆されている。
そこで本研究では,最終応答生成後の回答を正当化するように条件付けすることで,命令調整モデルを改善する,シンプルかつ効果的なアプローチとして,textbf{Post-Reasoning}を提案する。
設計上、最終的な答えは追加のレイテンシやトークンコストなしで得られるが、単純な命令拡張によるパフォーマンスの向上は継続できる。
AMC, HMMT, GSM8K, GPQA, MMLU-Pro, BIG-Bench Hard など,オープンモデルとプロプライエタリモデル, \(4\)モデルファミリ, \(9\) 多様な推論と知識集約型ベンチマークを対象とするポスト推論の評価を行った。
ポスト推論は、評価された設定の \(88.19\%\) 以上のパフォーマンスを改善し、平均的な相対的な改善(17.37\%\)を達成する。
さらに、評価された設定の \(91.11\%\) 以上の性能を更に向上させ、かつ、アクシデントベースラインを平均 8.01\%\ で上回り、トレーニングを通じて効果的に内部化できることを実証する教師付き事後チューニングを提案する。
最終的に、Post-Reasoningは、直接回答機能のための新しいパフォーマンス天井を確立する。
関連論文リスト
- CROP: Token-Efficient Reasoning in Large Language Models via Regularized Prompt Optimization [0.0]
推論技術を利用した大規模言語モデルではタスクパフォーマンスが向上するが、冗長な生成による遅延やトークンコストが大幅に向上する。
本稿では,応答長の正規化を導入するAPO手法であるPrompts (CROP) のコスト正規化最適化を提案する。
我々は、複雑な推論データセット、特にGSM8K、LogiQA、BIG-Bench Hardに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-04-08T19:31:25Z) - RASPRef: Retrieval-Augmented Self-Supervised Prompt Refinement for Large Reasoning Models [0.0]
本稿では,人間のアノテーションやタスク固有の監督を必要とせず,プロンプトを改善するフレームワークであるRetrieval-Augmented Self-Supervised Prompt Refinement (RASPRef)を紹介する。
RASPRefは、プロンプトを最適化ターゲットとして直接扱い、反復的な検索誘導処理により改善する。
論文 参考訳(メタデータ) (2026-03-27T21:49:21Z) - Probing to Refine: Reinforcement Distillation of LLMs via Explanatory Inversion [84.20493238687187]
単純な模倣を超えて、より深い概念的理解を具現化する新しい枠組みを導入する。
underlinetextitFirst, to address pattern memorization, Explanatory Inversion (EI) generated target explanatory probes'
underlinetextitSecondは、一般化を改善するために、Explainatory GRPO (texttEXGRPO) は、新しいダイアログ構造ユーティリティーボーナスを用いた強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2026-02-26T23:01:46Z) - Prefix-Tuning+: Modernizing Prefix-Tuning by Decoupling the Prefix from Attention [29.805182634944536]
本稿では,Prefix-Tuningの原理を一般化した新しいアーキテクチャであるPrefix-Tuning+を紹介し,その欠点に対処する。
我々の実験は、様々なベンチマークでPrefix-Tuning+が既存のPrefix-Tuningメソッドより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2025-06-16T16:30:26Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。