論文の概要: HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2509.23967v1
- Date: Sun, 28 Sep 2025 16:46:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.559821
- Title: HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs
- Title(参考訳): HiPO: LLMにおける動的推論のためのハイブリッドポリシー最適化
- Authors: Ken Deng, Zizheng Zhan, Wen Xiang, Wenqiang Zhu, Tianhao Peng, Xinping Lei, Weihao Li, Jingxuan Xu, Kun Wu, Yifan Yao, Haoyang Huang, Huaixi Tang, Kepeng Lei, Zhiyi Lai, Songwei Yu, Zongxian Feng, Zuchen Gao, Weihao Xie, Chenchen Zhang, Yanan Wu, Yuanxing Zhang, Lecheng Huang, Yuqun Zhang, Jie Liu, Zhaoxiang Zhang, Haotian Zhang, Bin Chen, Jiaheng Liu,
- Abstract要約: 大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、チェーン・オブ・シント(CoT)推論にますます依存している。
本稿では適応推論制御のフレームワークであるHybrid Policy Optimization(HiPO)を紹介する。
数学とコーディングベンチマークによる実験は、HiPOがトークン長を大幅に削減し、正確性を維持したり改善したりすることを示した。
- 参考スコア(独自算出の注目度): 54.16300997612526
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Language Models (LLMs) increasingly rely on chain-of-thought (CoT) reasoning to improve accuracy on complex tasks. However, always generating lengthy reasoning traces is inefficient, leading to excessive token usage and higher inference costs. This paper introduces the Hybrid Policy Optimization (i.e., HiPO), a framework for adaptive reasoning control that enables LLMs to selectively decide when to engage in detailed reasoning (Think-on) and when to respond directly (Think-off). Specifically, HiPO combines a hybrid data pipelineproviding paired Think-on and Think-off responseswith a hybrid reinforcement learning reward system that balances accuracy and efficiency while avoiding over-reliance on detailed reasoning. Experiments across mathematics and coding benchmarks demonstrate that HiPO can substantially reduce token length while maintaining or improving accuracy. Finally, we hope HiPO a can be a principled approach for efficient adaptive reasoning, advancing the deployment of reasoning-oriented LLMs in real-world, resource-sensitive settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、チェーン・オブ・シント(CoT)推論にますます依存している。
しかし、常に長い推論トレースを生成することは非効率であり、過剰なトークンの使用と推論コストの上昇につながる。
本稿では、適応推論制御のためのフレームワークであるHybrid Policy Optimization(HiPO)を紹介し、LLMがいつ詳細な推論を行うか(Think-on)と、いつ直接応答するか(Think-off)を選択的に決定できるようにする。
HiPOは、ペア化されたThink-onとThink-offのレスポンスを提供するハイブリッドデータパイプラインと、詳細な推論の過度な信頼性を回避しつつ、正確性と効率のバランスをとるハイブリッド強化学習報酬システムを組み合わせたものだ。
数学とコーディングベンチマークによる実験は、HiPOがトークン長を大幅に削減し、正確性を維持したり改善したりすることを示した。
最後に、HiPO a が効率的な適応推論の原則となることを期待し、実世界のリソースに敏感な環境における推論指向 LLM の展開を推し進める。
関連論文リスト
- Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Offline Reinforcement Learning for LLM Multi-Step Reasoning [15.687002884103537]
OREO(Offline Reasoning Optimization)は,多段階推論の強化を目的としたオフライン強化学習手法である。
これにより、ペアワイズデータを収集する必要がなくなり、より優れたクレジット割り当てが可能になる。
マルチステップ推論ベンチマークでは、既存のオフライン学習手法を超越している。
論文 参考訳(メタデータ) (2024-12-20T18:49:45Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - ICDPO: Effectively Borrowing Alignment Capability of Others via
In-context Direct Preference Optimization [24.55845271377532]
大規模な言語モデルは、安全なコンテンツの生成を保証するためにヒューマン・プライオリエンス・アライメントに依存している。
In-Context Direct Preference Optimization (ICDPO) と呼ばれる新しい手法を提案する。
ICDPOは、上記インスタントスコアラによって推定された整列応答を生成し、最終性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T17:14:34Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。