論文の概要: Polaris: A Gödel Agent Framework for Small Language Models through Experience-Abstracted Policy Repair
- arxiv url: http://arxiv.org/abs/2603.23129v1
- Date: Tue, 24 Mar 2026 12:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.474321
- Title: Polaris: A Gödel Agent Framework for Small Language Models through Experience-Abstracted Policy Repair
- Title(参考訳): Polaris: 経験的抽象化されたポリシー修復による小言語モデルのためのGödel Agent Framework
- Authors: Aditya Kakade, Vivek Srivastava, Shirish Karande,
- Abstract要約: 経験抽象化によるポリシー修復を行うコンパクトモデルのためのGdelエージェントであるPolarisを紹介する。
応答レベルの自己修正やパラメータチューニングとは異なり、Polarisはポリシーに持続する小さな監査可能なパッチでポリシーレベルの変更を行う。
ループの一部として、エージェントはメタ推論を行い、エラーを説明し、独自のポリシーを具体的に修正し、ポリシーを更新する。
- 参考スコア(独自算出の注目度): 0.9780193377233132
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gödel agent realize recursive self-improvement: an agent inspects its own policy and traces and then modifies that policy in a tested loop. We introduce Polaris, a Gödel agent for compact models that performs policy repair via experience abstraction, turning failures into policy updates through a structured cycle of analysis, strategy formation, abstraction, and minimal code pat ch repair with conservative checks. Unlike response level self correction or parameter tuning, Polaris makes policy level changes with small, auditable patches that persist in the policy and are reused on unseen instances within each benchmark. As part of the loop, the agent engages in meta reasoning: it explains its errors, proposes concrete revisions to its own policy, and then updates the policy. To enable cumulative policy refinement, we introduce experience abstraction, which distills failures into compact, reusable strategies that transfer to unseen instances. On MGSM, DROP, GPQA, and LitBench (covering arithmetic reasoning, compositional inference, graduate-level problem solving, and creative writing evaluation), a 7-billion-parameter model equipped with Polaris achieves consistent gains over the base policy and competitive baselines.
- Abstract(参考訳): ゲーデルエージェントは再帰的な自己改善を実現し、エージェントは自身のポリシーとトレースを検査し、そのポリシーをテストループで修正する。
これは、経験的抽象化によるポリシー修復を行い、分析、戦略形成、抽象化、保守的なチェックによる最小限のコードpat ch修復を通じて、障害をポリシー更新に変換する、コンパクトなモデルのためのGödelエージェントである。
レスポンスレベルの自己修正やパラメータチューニングとは異なり、Polarisはポリシーに持続する小さな監査可能なパッチでポリシーレベルの変更を行う。
ループの一部として、エージェントはメタ推論を行い、エラーを説明し、独自のポリシーを具体的に修正し、ポリシーを更新する。
累積的な政策改善を可能にするために、我々は失敗を未確認のインスタンスに転送するコンパクトで再利用可能な戦略に蒸留する経験抽象化を導入する。
MGSM, DROP, GPQA, LitBench(算術的推論, 構成的推論, 大学院レベルの問題解決, 創造的記述評価)では, ポラリスを組み込んだ7ビリオンパラメータモデルが基本方針と競争基準に対して一貫した利得を達成している。
関連論文リスト
- Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds [1.2183405753834562]
オフライン強化学習(RL)は、ログ化された遷移の固定バッチから決定ポリシーを学ぶことを目的としている。
本稿では,不確実性を即興的に保守的な政策改善に変換する統一的な枠組みであるEmphBayesian conservative Policy Optimization (BCPO)を提案する。
BCPOは環境/価値モデルよりも階層的なベイズ的後縁を維持し、アクション値に基づいてエンフレッシブルな下界(LCB)を構築し、明示的なKL正規化の下でポリシー更新を行う。
論文 参考訳(メタデータ) (2026-03-06T01:46:02Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning [52.97053840476386]
我々は、よく設計された行動ポリシーを用いて、分散リターン推定を確実に低くするために、政治外のデータを収集できることを示します。
我々は、この重要な洞察を、政策評価と改善の両方がインターリーブされるオンライン強化学習環境に拡張する。
論文 参考訳(メタデータ) (2025-11-13T23:06:40Z) - Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards [47.557539197058496]
逆推論のためのランダムポリシー評価(ROVER)について紹介する。
ROVERは、一様政体Q値上のソフトマックスから作用をサンプリングする最小限だが高効率なRL法である。
textbfquality(textbf+8.2 on pass@1, textbf+16.8 on pass@256)と textbfdiversity(textbf+17.6%)の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-09-29T16:09:07Z) - Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Periodic agent-state based Q-learning for POMDPs [23.296159073116264]
広く使われている代替手段は、観測履歴のモデルのない周期的に更新可能な機能であるエージェント状態を使用することである。
本稿では,エージェント状態に基づくQ-ラーニングの変種であるPA(エージェント状態に基づくQ-ラーニング)を提案する。
周期的マルコフ連鎖のアイデアと近似を組み合わせることで、PAが巡回極限に収束し、周期的ポリシーの近似誤差を特徴付けることを厳密に証明する。
論文 参考訳(メタデータ) (2024-07-08T16:58:57Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。