論文の概要: SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement
- arxiv url: http://arxiv.org/abs/2603.06333v1
- Date: Fri, 06 Mar 2026 14:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.983751
- Title: SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement
- Title(参考訳): SAHOO: 再帰的自己改善のための高次最適化目標のための安全アライメント
- Authors: Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary,
- Abstract要約: SAHOOは3つのセーフガードを通してドリフトを監視し制御するためのフレームワークである。
GDIは意味、語彙、構造、分布の計測を組み合わせた多信号検出器である。
制約保存チェックは、構文的正当性や非幻覚といった安全クリティカルな不変性を強制する。
- 参考スコア(独自算出の注目度): 16.505918019260964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recursive self-improvement is moving from theory to practice: modern systems can critique, revise, and evaluate their own outputs, yet iterative self-modification risks subtle alignment drift. We introduce SAHOO, a practical framework to monitor and control drift through three safeguards: (i) the Goal Drift Index (GDI), a learned multi-signal detector combining semantic, lexical, structural, and distributional measures; (ii) constraint preservation checks that enforce safety-critical invariants such as syntactic correctness and non-hallucination; and (iii) regression-risk quantification to flag improvement cycles that undo prior gains. Across 189 tasks in code generation, mathematical reasoning, and truthfulness, SAHOO produces substantial quality gains, including 18.3 percent improvement in code tasks and 16.8 percent in reasoning, while preserving constraints in two domains and maintaining low violations in truthfulness. Thresholds are calibrated on a small validation set of 18 tasks across three cycles. We further map the capability-alignment frontier, showing efficient early improvement cycles but rising alignment costs later and exposing domain-specific tensions such as fluency versus factuality. SAHOO therefore makes alignment preservation during recursive self-improvement measurable, deployable, and systematically validated at scale.
- Abstract(参考訳): 現代のシステムは、自分たちのアウトプットを批判し、修正し、評価することができるが、反復的な自己修正は微妙なアライメントドリフトを危険にさらす。
3つのセーフガードを通してドリフトを監視し制御するための実践的なフレームワークであるSAHOOを紹介します。
i) Goal Drift Index(GDI)は,意味,語彙,構造及び分布の指標を組み合わせた学習された多信号検出器である。
2 構文的正当性及び非幻覚等の安全クリティカルな不変性を強制する制約保存チェック
三 事前利得を解除する改善サイクルのフラグ付けに対する回帰リスク定量化。
コード生成、数学的推論、真理性の189タスクにわたって、SAHOOは、コードタスクが18.3%改善し、推論が16.8%向上し、2つの領域における制約を保ち、真理性の低さを維持している。
閾値は、3サイクルにわたる18のタスクからなる小さな検証セットに基づいて調整される。
さらに、能力調整のフロンティアをマッピングし、効率的な早期改善サイクルを示すが、後続の調整コストが上昇し、フラレンシや事実性といったドメイン固有の緊張が露呈する。
したがって、SAHOOは再帰的な自己改善の過程でアライメントを維持でき、展開可能で、大規模に体系的に検証できる。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - Causality-Inspired Safe Residual Correction for Multivariate Time Series [12.183024727781449]
我々はCRC(Causality-inspired Safe Residual Correction)を提案する。
因果性にインスパイアされたエンコーダを用いて、自己および相互変数のダイナミクスを分離することで方向認識構造を公開する。
実験の結果、CRCは精度を継続的に改善する一方、深部アブレーションの研究は、そのコアセーフティメカニズムが例外的に高い非劣化速度(NDR)を保証していることを確認した。
論文 参考訳(メタデータ) (2025-12-27T01:34:14Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - SGM: A Statistical Godel Machine for Risk-Controlled Recursive Self-Modification [24.250783705030653]
安全編集のための最初の統計アーキテクチャである統計ゴデルマシン(SGM)を紹介する。
SGMは証明に基づく要求を統計的信頼テスト(e-values, Hoeffding bounds)に置き換え、選択された信頼度レベルで優越性が証明された場合にのみ修正を認める。
また,提案するCTHS(Confirm-Triggered Harmonic Spending)も提案する。
論文 参考訳(メタデータ) (2025-10-11T14:09:37Z) - The Alignment Auditor: A Bayesian Framework for Verifying and Refining LLM Objectives [8.030821324147515]
逆強化学習は、行動から報酬関数を推測することができる。
既存のアプローチは、単一で自信過剰な報酬推定を生成するか、タスクの基本的な曖昧さに対処できないかのいずれかです。
本稿では,簡単な推定タスクから総合的な検証プロセスへ報酬推論を再構成する,原則的監査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T16:25:14Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。