論文の概要: IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck
- arxiv url: http://arxiv.org/abs/2601.05870v1
- Date: Fri, 09 Jan 2026 15:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.015816
- Title: IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck
- Title(参考訳): IIB-LPO:イテレーティブ・インフォメーション・ボトルネックによる潜時政策最適化
- Authors: Huilin Deng, Hongchen Luo, Yue Zhu, Long Li, Zhuoyue Chen, Xinghao Zhao, Ming Li, Jihai Zhang, Mengchang Wang, Yang Cao, Yu Kang,
- Abstract要約: イテレーティブ・インフォメーション・ボトルネック(IIB-LPO)は、トークンの統計的摂動から推論軌道のトポロジカル分岐へと探索を移す新しいアプローチである。
IIB-LPOは最先端のパフォーマンスを達成し、従来の手法を最大5.3%の精度と7.4%の多様性で上回っている。
- 参考スコア(独自算出の注目度): 20.113524065146674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) for Large Language Model (LLM) reasoning have been hindered by a persistent challenge: exploration collapse. The semantic homogeneity of random rollouts often traps models in narrow, over-optimized behaviors. While existing methods leverage policy entropy to encourage exploration, they face inherent limitations. Global entropy regularization is susceptible to reward hacking, which can induce meaningless verbosity, whereas local token-selective updates struggle with the strong inductive bias of pre-trained models. To address this, we propose Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO), a novel approach that shifts exploration from statistical perturbation of token distributions to topological branching of reasoning trajectories. IIB-LPO triggers latent branching at high-entropy states to diversify reasoning paths and employs the Information Bottleneck principle both as a trajectory filter and a self-reward mechanism, ensuring concise and informative exploration. Empirical results across four mathematical reasoning benchmarks demonstrate that IIB-LPO achieves state-of-the-art performance, surpassing prior methods by margins of up to 5.3% in accuracy and 7.4% in diversity metrics.
- Abstract(参考訳): 大規模言語モデル(LLM)推論のためのRLVR(Reinforcement Learning with Verifiable Rewards)の最近の進歩は、探索崩壊という永続的な課題によって妨げられている。
ランダムロールアウトの意味的均一性は、しばしば狭く過度に最適化された振る舞いでモデルをトラップする。
既存の手法では、政策のエントロピーを利用して探索を促進するが、それらは固有の制限に直面している。
グローバルなエントロピー正規化は、無意味な冗長性を引き起こすことができるハッキングに対する報奨の影響を受けるが、局所的なトークン選択更新は、事前訓練されたモデルの強い帰納バイアスに悩まされる。
これを解決するために,Iterative Information Bottleneck (IIB-LPO) を用いた遅延ポリシー最適化を提案し,トークン分布の統計的摂動から推論軌道のトポロジ的分岐へ探索を移行させる。
IIB-LPOは、高エントロピー状態の潜伏分岐をトリガーし、推論経路を多様化させ、トラジェクトリフィルタと自己回帰機構の両方としてインフォメーション・ボトルネックの原理を採用し、簡潔で情報的な探索を確実にする。
4つの数学的推論ベンチマークによる実証的な結果は、IIB-LPOが最先端のパフォーマンスを達成し、これまでの手法を最大5.3%の精度と7.4%の多様性のメトリクスで上回っていることを示している。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Distribution Preference Optimization: A Fine-grained Perspective for LLM Unlearning [26.120338506874976]
モデルユーティリティ全体を維持しながら、特定のデータの影響を取り除くことを目的としたアンラーニングは、重要な研究領域になりつつある。
textbfDistribution textbfPreference textbfOptimization (DiPO)と呼ばれる新しい未学習アルゴリズムを導出する。
DiPOはTOFUベンチマークで最高の品質を獲得し、MUSEベンチマークで主要なスケーラビリティと持続可能性を維持している。
論文 参考訳(メタデータ) (2025-10-06T12:49:00Z) - Reasoning with Exploration: An Entropy Perspective [111.0659496612249]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [39.460202867967006]
そこで,本研究では,高密度報酬を付与し,RLに基づくパラダイムにおける探索を増幅するために,固有モチベーションギルド探索比N meThOd foR LLM推論(i-MENTOR)を提案する。
4つの公開データセットにわたる実験は、i-MENTORの有効性を示し、AIME 2024で22.23%改善した。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。