論文の概要: Selection as Power: Constrained Reinforcement for Bounded Decision Authority
- arxiv url: http://arxiv.org/abs/2603.02019v1
- Date: Mon, 02 Mar 2026 16:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.957505
- Title: Selection as Power: Constrained Reinforcement for Bounded Decision Authority
- Title(参考訳): 権力としての選択:境界決定機関の制限強化
- Authors: Jose Manuel de la Chica Rodriguez, Juan Manuel Vera Díaz,
- Abstract要約: そこでは,外部に強制された主権制約の下でのスコアリングとリデューサパラメータに強化更新を適用して,インセンティブ付き選択ガバナンスを導入する。
更新ステップ毎に主権の制約が課される場合,学習ダイナミクスは構造的多様性と共存可能であることを示す。
これらの結果は,各更新ステップで主権制約が適用された場合,動的学習が構造的多様性と共存可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selection as Power argued that upstream selection authority, rather than internal objective misalignment, constitutes a primary source of risk in high-stakes agentic systems. However, the original framework was static: governance constraints bounded selection power but did not adapt over time. In this work, we extend the framework to dynamic settings by introducing incentivized selection governance, where reinforcement updates are applied to scoring and reducer parameters under externally enforced sovereignty constraints. We formalize selection as a constrained reinforcement process in which parameter updates are projected onto governance-defined feasible sets, preventing concentration beyond prescribed bounds. Across multiple regulated financial scenarios, unconstrained reinforcement consistently collapses into deterministic dominance under repeated feedback, especially at higher learning rates. In contrast, incentivized governance enables adaptive improvement while maintaining bounded selection concentration. Projection-based constraints transform reinforcement from irreversible lock-in into controlled adaptation, with governance debt quantifying the tension between optimization pressure and authority bounds. These results demonstrate that learning dynamics can coexist with structural diversity when sovereignty constraints are enforced at every update step, offering a principled approach to integrating reinforcement into high-stakes agentic systems without surrendering bounded selection authority.
- Abstract(参考訳): パワーとしての選択 (Selection as Power) は、上流の選択権限は、内部の客観的なミスアライメントではなく、ハイステークなエージェントシステムにおける主要なリスク源であると主張した。
しかし、当初のフレームワークは静的で、ガバナンスの制約は選択権限を制限していたが、時間が経つにつれて適応しなかった。
本研究では,外部に強制された主権制約の下でのスコアリングおよびリデューサパラメータに強化更新を適用して,インセンティブ付き選択ガバナンスを導入することにより,動的設定にフレームワークを拡張する。
我々は、パラメータ更新をガバナンス定義可能な集合に投影する制約付き強化プロセスとして選択を形式化し、所定の境界を超える集中を防止する。
複数の規制された財政シナリオの中で、制約のない強化は、特に高い学習率において、繰り返しフィードバックの下で決定論的支配へと一貫して崩壊する。
対照的に、インセンティブ付きガバナンスは、限定選択濃度を維持しながら適応的な改善を可能にする。
プロジェクションに基づく制約は、最適化圧力と権限境界の間の緊張を定量化するガバナンス債務によって、不可逆ロックインから制御された適応へと強化を変換する。
これらの結果から, 独立性制約が適用された場合, 学習力学は構造的多様性と共存し, 拘束的選択権限を放棄することなく, 高度なエージェントシステムに強化を統合するための原則的アプローチを提供することができた。
関連論文リスト
- Operationalizing Fairness: Post-Hoc Threshold Optimization Under Hard Resource Limits [0.0]
機械学習のハイテイク領域への展開には、予測安全性とアルゴリズムフェアネスのバランスが必要である。
厳密かつ厳しい容量制約の下で、安全バランス、効率、および株式を共同で確保する、ポストホックでモデルに依存しないしきい値最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-26T02:56:36Z) - Towards Selection as Power: Bounding Decision Authority in Autonomous Agents [0.0]
我々は、認知、選択、行動を独立したドメインに分離し、自律性を主権のベクトルとしてモデル化するガバナンスアーキテクチャを提案する。
変動操作,しきい値ゲーム,フレーミングスキュー,順序付け効果,エントロピー探索を対象とし,複数の規制された金融シナリオを対象としたシステムの評価を行った。
その結果、機械的選択ガバナンスは実装可能であり、監査可能であり、推論能力を維持しながら決定論的結果の獲得を防止することが示されている。
論文 参考訳(メタデータ) (2026-02-16T10:10:47Z) - Constrained Group Relative Policy Optimization [18.3888203751956]
本稿では、制約付きポリシー最適化のためのラグランジアンによるGRPOの拡張であるConstrained GRPOを紹介する。
提案手法は, 最適推定における単純多成分処理が制約学習を損なう可能性があることを示す。
また,ロボットタスクにおける制約付きGRPOの評価を行い,タスク成功度を高めながら制約満足度を向上させる。
論文 参考訳(メタデータ) (2026-02-05T16:44:23Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Overfitting in Adaptive Robust Optimization [4.66948282422762]
より強い確率的保証を与えるため、制約固有の不確実性セットのサイズを割り当てることを提案する。
この見解は、堅牢性と適応性のバランスをとる不確実性セットを設計するための原則化されたアプローチを動機付けている。
論文 参考訳(メタデータ) (2025-09-19T22:09:51Z) - Incentivizing Safer Actions in Policy Optimization for Constrained Reinforcement Learning [9.62939764063531]
制約強化学習(Constrained Reinforcement Learning)は、事前定義された制約制約に固執しながら、リターンを最大化することを目的としている。
継続的なコントロール設定では、報酬と制約満足度のトレードオフは依然として大きな課題です。
我々は、報酬構造に加えて、適応的なインセンティブ機構を統合する新しいアプローチを導入し、制約境界内に留まる。
論文 参考訳(メタデータ) (2025-09-11T07:33:35Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。