論文の概要: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.11104v1
- Date: Mon, 13 Oct 2025 07:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.249913
- Title: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
- Title(参考訳): 非Humanライクな推論経路優先最適化によるLLM推論の強化
- Authors: Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu,
- Abstract要約: 信頼誘導推論経路優先最適化(CGPO)を提案する。
CGPOは、軌道ドリフトを緩和するために、自己生成非人間的な推論パスガイダンスを適用している。
提案手法は,強いモデルや人手による注釈付きデータを用いた手法と比較して,ほとんどの場合において優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 40.8414358896996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
- Abstract(参考訳): LLM推論を強化するための現在のアプローチは、人間のような推論軌道に対する訓練バイアスをもたらす傾向がある。
ステップワイズ選好最適化において、特に中間ステップに対する人間または高容量モデルアノテーションへの依存は、代替的な非人間的な推論経路の探索を制限し、達成可能な性能を制約する。
さらに, 小型のパイロット実験により, 約75%のケースにおいて, モデルの最初の誤動作は最低信頼点の後に発生することがわかった。
これは、最初の明示的なエラーを見つけるよりも、エラーの前にモデルを最低信頼点に導く方が、より正確な監視を提供することを示唆している。
本稿では、信頼誘導推論経路優先最適化(CGPO)を提案する。これは、信頼信号を利用してモデルの推論過程における最大不確かさ点を特定し、軌道のドリフトを緩和するために自己生成非人間的な推論経路ガイダンスを適用する手法である。
我々の実験は、コードと数学的推論の両方に適用される多様なモデルにまたがっている。
以上の結果から,本手法はトレーニングデータと同じ量であっても,強いモデルや人手による注釈付きデータを用いた場合と比較して,小さなモデルで生成されたデータを用いた場合の方が,ほとんどの場合において優れた性能が得られることが示された。
関連論文リスト
- ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。
我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。
複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文 参考訳(メタデータ) (2025-05-30T04:20:00Z) - Dissecting the Impact of Model Misspecification in Data-driven Optimization [20.35205476800932]
データ駆動最適化は、推定コストの決定を最適化することで、機械学習モデルを意思決定に変換することを目的としている。
より最近のアプローチでは、推定誤差の代わりに決定誤差を最小限に抑える推定最適化統合を採用している。
我々は、基礎となるモデルが誤って特定されたときに、トップ2の後悔の言葉に「統合アプローチが普遍的な二重利益をもたらす」ことを示します。
論文 参考訳(メタデータ) (2025-03-01T21:31:54Z) - Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。
また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:16Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。