論文の概要: HiPO: Hierarchical Preference Optimization for Adaptive Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2604.20140v1
- Date: Wed, 22 Apr 2026 03:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.94338
- Title: HiPO: Hierarchical Preference Optimization for Adaptive Reasoning in LLMs
- Title(参考訳): HiPO:LLMにおける適応推論のための階層的推論最適化
- Authors: Darsh Kachroo, Adriana Caraeni, Arjun Prasaath Anbazhagan, Brennan Lagasse, Kevin Zhu,
- Abstract要約: 応答をセグメントに分割し,各セグメントに対するDPO損失の重み付け和として損失を算出するDPOの拡張であるHiPOを提案する。
提案手法は,DPOの計算効率と訓練安定性を維持しつつ,セグメント固有の訓練を可能にする。
また,Math Stack Exchange の選好データセット上で,HiPO と DPO を用いて微調整された複数の 7B LLM に対して,HiPO を用いて訓練したモデルが,様々な一般的なベンチマークで他のモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 2.497936211748472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) is an effective framework for aligning large language models with human preferences, but it struggles with complex reasoning tasks. DPO optimizes for the likelihood of generating preferred over dispreferred responses in their entirety and lacks the granularity to provide feedback on subsections of many-step solutions typical of reasoning tasks. Existing methods excel at either stable preference learning (e.g., DPO variants like KTO and RSO) or structured reasoning (e.g., ReMA's multi-agent RL framework, Tree of Thoughts), but fail to merge these complementary strengths. We propose HiPO (Hierarchical Preference Optimization), an extension of DPO that separates responses into reasoning segments (query clarification and context, reasoning steps, and answer) and computes loss as a weighted sum of the DPO loss for each segment. Our approach enables segment-specific training while maintaining DPO's computational efficiency and training stability. We demonstrate that for multiple 7B LLMs fine-tuned using HiPO and DPO on the Math Stack Exchange preference dataset, the models trained with HiPO outperform the others on a variety of common math benchmarks and achieve greater organization, logical flow, and consistency as measured by GPT-4.1.
- Abstract(参考訳): 直接選好最適化(DPO)は、大規模言語モデルと人間の選好を整合させる効果的なフレームワークであるが、複雑な推論タスクに苦慮している。
DPOは、その全体において好ましくない応答を生成する可能性を最適化し、推論タスクに典型的な多段階解のサブセクションに対するフィードバックを提供する粒度を欠いている。
既存の方法は、安定な選好学習(KTOやRSOのようなDPO変種)や構造化推論(ReMAのマルチエージェントRLフレームワーク、Tree of Thoughtsなど)で優れているが、これらの相補的な強みを統合できない。
本稿では,応答を推論セグメント(クエリの明確化とコンテキスト,推論ステップ,回答)に分離し,各セグメントに対するDPO損失の重み付け和として損失を算出するDPOの拡張であるHiPOを提案する。
提案手法は,DPOの計算効率と訓練安定性を維持しつつ,セグメント固有の訓練を可能にする。
また,Math Stack Exchange の選好データセット上で,HiPO と DPO を用いて微調整された複数の 7B LLM に対して,HiPO を用いて訓練したモデルが,様々な一般的な数学ベンチマークにおいて他のモデルより優れており,GPT-4.1 で測定した組織,論理フロー,一貫性が向上していることを示す。
関連論文リスト
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - HiPO: Hybrid Policy Optimization for Dynamic Reasoning in LLMs [54.16300997612526]
大規模言語モデル (LLM) は、複雑なタスクの正確性を改善するために、Chain-of-Thought (CoT) 推論にますます依存している。
本稿では適応推論制御のフレームワークであるHybrid Policy Optimization(HiPO)を紹介する。
数学とコーディングベンチマークによる実験は、HiPOがトークン長を大幅に削減し、正確性を維持したり改善したりすることを示した。
論文 参考訳(メタデータ) (2025-09-28T16:46:12Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees [19.99934360969673]
本稿では、選好木からペア化された選好応答をサンプリングしないツリー選好最適化(TPO)を導入する。
TPOは、言語モデルのアライメントを、優先順位リストランキング問題として定式化する。
実験の結果、TPOは4つのデータセット上の5つの公開大言語モデルにおいて、DPOを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-10T22:22:05Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。