論文の概要: Group Pattern Selection Optimization: Let LRMs Pick the Right Pattern for Reasoning
- arxiv url: http://arxiv.org/abs/2601.07238v1
- Date: Mon, 12 Jan 2026 06:19:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.240151
- Title: Group Pattern Selection Optimization: Let LRMs Pick the Right Pattern for Reasoning
- Title(参考訳): グループパターン選択最適化: LRM が推論に適したパターンを選択する
- Authors: Hanbin Wang, Jingwei Song, Jinpeng Li, Fei Mi, Lifeng Shang,
- Abstract要約: グループパターン選択最適化(GPSO)は大規模推論モデルのための強化学習フレームワークである。
GPSOには、複数パターンのロールアウト、検証者による問題ごとの最適パターン選択、学習ポリシーへの明示的なパターン接尾辞の漏洩を防ぐためのアテンションマスキングが組み込まれている。
大規模な実験では、GPSOはさまざまなモデルバックボーンとベンチマークで、一貫性と実質的なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 38.16271055029922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) exhibit diverse high-level reasoning patterns (e.g., direct solution, reflection-and-verification, and exploring multiple solutions), yet prevailing training recipes implicitly bias models toward a limited set of dominant patterns. Through a systematic analysis, we identify substantial accuracy variance across these patterns on mathematics and science benchmarks, revealing that a model's default reasoning pattern is often sub-optimal for a given problem. To address this, we introduce Group Pattern Selection Optimization (GPSO), a reinforcement learning framework that extends GRPO by incorporating multi-pattern rollouts, verifier-guided optimal pattern selection per problem, and attention masking during optimization to prevent the leakage of explicit pattern suffixes into the learned policy. By exploring a portfolio of diverse reasoning strategies and optimizing the policy on the most effective ones, GPSO enables the model to internalize the mapping from problem characteristics to optimal reasoning patterns. Extensive experiments demonstrate that GPSO delivers consistent and substantial performance gains across various model backbones and benchmarks, effectively mitigating pattern sub-optimality and fostering more robust, adaptable reasoning. All data and codes are available at https://github.com/wanghanbinpanda/GPSO.
- Abstract(参考訳): 大きな推論モデル(LRM)は、様々なハイレベルな推論パターン(例えば、直接解法、リフレクション・アンド・バリデーション、および複数の解の探索)を示すが、一般的なトレーニングレシピは、限られた支配的なパターンに対して暗黙的にバイアスする。
体系的な解析により、これらのパターン間の精度のばらつきを数学や科学ベンチマークで同定し、モデルのデフォルトの推論パターンが与えられた問題に対してしばしば準最適であることを明らかにする。
そこで本研究では,複数パターンのロールアウトを組み込んでGRPOを拡張する強化学習フレームワークであるグループパターン選択最適化(GPSO)について紹介する。
多様な推論戦略のポートフォリオを探索し、最も効果的にポリシーを最適化することにより、GPSOはモデルが問題特性から最適な推論パターンへのマッピングを内部化することを可能にする。
大規模な実験により、GPSOはさまざまなモデルバックボーンとベンチマークに一貫性と実質的なパフォーマンス向上をもたらし、パターンのサブ最適化を効果的に緩和し、より堅牢で適応可能な推論を促進することが示されている。
すべてのデータとコードはhttps://github.com/wanghanbinpanda/GPSO.comで入手できる。
関連論文リスト
- Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - GCPO: When Contrast Fails, Go Gold [6.596504114809683]
本稿では、外部標準基準回答を組み込んだグループコントラストポリシー最適化(GCPO)を紹介する。
モデルが問題を解くことができない場合、参照応答は正しい応答を提供し、不当に正確な更新方向に向けてモデルを操る。
GCPOは、複数のベンチマークデータセットで卓越した結果を達成し、ベースラインモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-09T05:09:06Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Landscape Features in Single-Objective Continuous Optimization: Have We Hit a Wall in Algorithm Selection Generalization? [4.510532471907222]
本研究では,異なる問題表現に基づくASモデルの一般化可能性を評価する。
また,最近提案されたトポロジカルランドスケープ解析機能と同様に,最も広く利用されているランドスケープ解析機能についても検討している。
論文 参考訳(メタデータ) (2025-01-29T14:03:27Z) - Diffusion Models as Network Optimizers: Explorations and Analysis [71.69869025878856]
生成拡散モデル(GDM)は,ネットワーク最適化の新しいアプローチとして期待されている。
本研究ではまず,生成モデルの本質的な特徴について考察する。
本稿では,識別的ネットワーク最適化よりも生成モデルの利点を簡潔かつ直感的に示す。
論文 参考訳(メタデータ) (2024-11-01T09:05:47Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - Personalizing Performance Regression Models to Black-Box Optimization
Problems [0.755972004983746]
本研究では,数値最適化問題に対するパーソナライズされた回帰手法を提案する。
また、問題毎に1つの回帰モデルを選択するのではなく、パーソナライズされたアンサンブルを選択することの影響についても検討する。
本稿では,BBOBベンチマークコレクション上での数値最適化性能の予測について検討する。
論文 参考訳(メタデータ) (2021-04-22T11:47:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。