論文の概要: Fibration Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.08239v1
- Date: Mon, 09 Mar 2026 11:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.823692
- Title: Fibration Policy Optimization
- Title(参考訳): フィブレーション政策最適化
- Authors: Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He,
- Abstract要約: 本研究では, サンプルRLデータを繊維束として整理し, トラジェクティブアグリゲーションの基底レベルゲートと, トケン残基のファイバーレベルゲートに分解する代数を開発した。
APC-およびFBGから、ヤコビアンが軌道上のブロック対角的な具体的目的であるフィブレーションポリシー最適化(または単にファイバーPO)を導出する。
FiberPO-Domainは、ドメインの独立した信頼領域予算、グループ、軌道、トークンレベルの4段階のインスタンス化であることを示す。
- 参考スコア(独自算出の注目度): 14.6471913413397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly trained as heterogeneous systems spanning multiple domains, expert partitions, and agentic pipelines, yet prevalent proximal objectives operate at a single scale and lack a principled mechanism for coupling token-level, trajectory-level, and higher-level hierarchical stability control. To bridge this gap, we derive the Aggregational Policy Censoring Objective (APC-Obj), the first exact unconstrained reformulation of sample-based TV-TRPO, establishing that clipping-based surrogate design and trust-region optimization are dual formulations of the same problem. Building on this foundation, we develop Fiber Bundle Gating (FBG), an algebraic framework that organizes sampled RL data as a fiber bundle and decomposes ratio gating into a base-level gate on trajectory aggregates and a fiber-level gate on per-token residuals, with provable first-order agreement with the true RL objective near on-policy. From APC-Obj and FBG we derive Fibration Policy Optimization (or simply, FiberPO), a concrete objective whose Jacobian is block-diagonal over trajectories, reduces to identity at on-policy, and provides better update direction thus improving token efficiency. The compositional nature of the framework extends beyond the trajectory-token case: fibrations compose algebraically into a Fibration Gating Hierarchy (FGH) that scales the same gating mechanism to arbitrary hierarchical depth without new primitives, as demonstrated by FiberPO-Domain, a four-level instantiation with independent trust-region budgets at the domain, prompt group, trajectory, and token levels. Together, these results connect the trust-region theory, a compositional algebraic structure, and practical multi-scale stability control into a unified framework for LLM policy optimization.
- Abstract(参考訳): 大規模言語モデルは、複数のドメイン、エキスパートパーティション、エージェントパイプラインにまたがる異種システムとして、ますます訓練されている。
このギャップを埋めるために,サンプルベースTV-TRPOの厳密な改定を行うAPC-Obj(Aggregational Policy Censoring Objective)を導出し,クリッピングに基づくサロゲート設計と信頼度最適化が同じ問題の2つの定式化であることを確認した。
この基盤の上に構築したFiber Bundle Gating (FBG) は, サンプルRLデータを繊維束として整理し, 軌道集合上の基底レベルゲートとトーケン残差のファイバーレベルゲートに分解する代数的フレームワークである。
APC-Obj と FBG は、ヤコビアンが軌道上のブロック対角的な具体的目的であるフィブレーションポリシー最適化 (FiberPO) を導出する。
フィブレーションは代数的にフィブレーション・ゲーティング・ヒエラルキー (Fibration Gating Hierarchy, FGH) に構成され、新しいプリミティブなしで同じゲーティング機構を任意の階層的な深さに拡張する。
これらの結果は、信頼領域理論、構成代数構造、実用的マルチスケール安定制御をLLM政策最適化のための統一的な枠組みに結びつける。
関連論文リスト
- USBD: Universal Structural Basis Distillation for Source-Free Graph Domain Adaptation [28.47018372381707]
SF-GDAは、グラフデータセット間でのプライバシ保護の知識伝達において重要である。
本稿では, バイアスモデルに適応するパラダイムを, SF-GDAの普遍的構造基底学習にシフトさせるフレームワークであるユニバーサル構造基底蒸留を提案する。
論文 参考訳(メタデータ) (2026-02-09T09:39:07Z) - f-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment [15.396104072574104]
政治強化学習のクラスであるf群相対政策最適化(f-GRPO)とf-Hybrid Alignment Loss(f-HAL)を提案する。
我々は、これらの目的のクラスがアライメント後の平均報酬を改善することを理論的に保証する。
論文 参考訳(メタデータ) (2026-02-05T18:01:52Z) - Towards A Unified PAC-Bayesian Framework for Norm-based Generalization Bounds [63.47271262149291]
PAC-Bayesianノルムに基づく一般化のための統一的なフレームワークを提案する。
提案手法の鍵となるのは、構造的重み摂動に関してネットワーク出力を定量化する感度行列である。
我々は、いくつかの既存のPAC-ベイジアン結果を特殊ケースとして回復する一般化境界の族を導出する。
論文 参考訳(メタデータ) (2026-01-13T00:42:22Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - CoCo-Fed: A Unified Framework for Memory- and Communication-Efficient Federated Learning at the Wireless Edge [50.42067935605982]
ローカルメモリの効率とグローバル通信の削減を両立させる新しい圧縮・結合型学習フレームワークを提案する。
CoCo-Fedは、メモリと通信効率の両方において最先端のベースラインを著しく上回り、非IID設定下では堅牢な収束を維持している。
論文 参考訳(メタデータ) (2026-01-02T03:39:50Z) - Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents [90.45197506653341]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップ問題を解決するために、検索エンジンのような外部ツールに依存している。
サーチエージェントの軌道は構造的に不均一であり、サーチコールの数、配置、結果の変動は、根本的に異なる応答方向と報酬分布をもたらす。
1つのグローバルベースラインを使用する標準方針勾配法は、私たちが認識し、層間バイアスとして定式化するものに苦しむ。
本稿では,SAN (Stratified Advantage Normalization) の中心成分であるStratified GRPOを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:59:13Z) - Distributed optimization: designed for federated learning [6.642087364775619]
Federated Learning(FL)は、プライバシ保護制約の下で分散コラボレーション機械学習フレームワークである。
本稿では,拡張ラグランジアン手法に基づく分散最適化アルゴリズムのクラスを提案する。
数値実験により,提案アルゴリズムは大規模設定において高い性能を示すことが示された。
論文 参考訳(メタデータ) (2025-08-12T03:39:07Z) - Practical Bayes-Optimal Membership Inference Attacks [51.06337749378432]
我々は、独立および同一分散データ(すなわち、d)とグラフ構造化データの両方に対して、実用的かつ理論的に基礎付けられたメンバーシップ推論攻撃(MIA)を開発する。
Sublayrollesらによるベイズ決定理論の枠組みに基づいて、グラフニューラルネットワークに対するノードレベルのMIAに対するベイズ最適メンバシップ推定規則を導出する。
論文 参考訳(メタデータ) (2025-05-30T00:23:01Z) - Disentangled Federated Learning for Tackling Attributes Skew via
Invariant Aggregation and Diversity Transferring [104.19414150171472]
属性は、クライアント間の一貫した最適化方向から、現在の連邦学習(FL)フレームワークを歪めます。
本稿では,ドメイン固有属性とクロス不変属性を2つの補足枝に分離するために,非絡み付きフェデレーション学習(DFL)を提案する。
実験により、DFLはSOTA FL法と比較して高い性能、より良い解釈可能性、より高速な収束率でFLを促進することが確認された。
論文 参考訳(メタデータ) (2022-06-14T13:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。