論文の概要: NPO: Learning Alignment and Meta-Alignment through Structured Human Feedback
- arxiv url: http://arxiv.org/abs/2507.21131v1
- Date: Tue, 22 Jul 2025 11:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:54.967011
- Title: NPO: Learning Alignment and Meta-Alignment through Structured Human Feedback
- Title(参考訳): NPO:構造化されたフィードバックによる学習アライメントとメタアライメント
- Authors: Madhava Gaikwad, Ashwini Ramchandra Doke,
- Abstract要約: 我々は,人間のループ内決定システムにおけるフィードバック駆動型適応を運用するアライメント対応学習フレームワークであるNPOを提案する。
NPOは、構造化されたフィードバックの下で測定可能で、監視可能で、再現可能なアライメント損失の形式化を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present NPO, an alignment-aware learning framework that operationalizes feedback-driven adaptation in human-in-the-loop decision systems. Unlike prior approaches that treat alignment as a static or post-hoc property, NPO introduces a formalization of alignment loss that is measurable, supervisable, and reducible under structured feedback. In parallel, we propose meta-alignment as the fidelity of the monitoring process that governs retraining or override triggers, and show that it is formally reducible to primary alignment via threshold fidelity. Our implementation spans a scalable operational loop involving scenario scoring, threshold tuning, policy validation, and structured feedback ingestion, including "likes", overrides, and abstentions. We provide formal convergence results under stochastic feedback and show that both alignment loss and monitoring fidelity converge additively. Empirically, NPO demonstrates measurable value in hyperscale deployment settings. A simulation-based artifact and ablation studies further illustrate the theoretical principles in action. Together, NPO offers a compact, inspectable architecture for continual alignment monitoring, helping bridge theoretical alignment guarantees with practical reliability in dynamic environments.
- Abstract(参考訳): 我々は,人間のループ内決定システムにおけるフィードバック駆動型適応を運用するアライメント対応学習フレームワークであるNPOを提案する。
静的あるいはポストホックな性質としてアライメントを扱う従来のアプローチとは異なり、NPOはアライメント損失の形式化を導入し、測定可能で、監視可能で、構造化されたフィードバックの下で再現可能である。
並行して、リトレーニングやオーバライドトリガーの制御を行う監視プロセスの忠実度としてメタアライメントを提案し、しきい値フィリティによる一次アライメントに対して正式に再現可能であることを示す。
私たちの実装は、シナリオスコアリング、しきい値チューニング、ポリシー検証、構造化されたフィードバックの取り込みを含むスケーラブルな運用ループにまたがっています。
確率的フィードバックの下で正式な収束結果を提供し、アライメント損失とモニタリング忠実度の両方が加算的に収束することを示す。
経験的に、NPOはハイパースケールなデプロイメント設定で測定可能な価値を示しています。
シミュレーションに基づくアーティファクトとアブレーションの研究は、作用する理論原理をさらに説明している。
NPOは、連続的なアライメント監視のためのコンパクトで検査可能なアーキテクチャを提供し、動的環境における実用的な信頼性を備えた理論アライメント保証の橋渡しを支援する。
関連論文リスト
- Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization [6.408943565801689]
潜時変化("contexts")をキャプチャすることは、強化学習(RL)エージェントをトレーニング体制を越えて展開する上で鍵となる。
我々は、コンテキストベースのRLを二重推論制御問題として再認識し、2つの特性とその階層を正式に特徴付ける。
我々は,表現学習と政策学習をきれいに分離する,ELBOスタイルの文脈的エビデンスを導出する。
論文 参考訳(メタデータ) (2025-07-25T17:08:16Z) - Global Variational Inference Enhanced Robust Domain Adaptation [7.414646586981638]
本稿では,構造を意識したクロスドメインアライメントを実現するために,変分推論による連続的,クラス条件のグローバルな事前学習フレームワークを提案する。
GVI-DAは、潜在特徴再構成によるドメインギャップを最小化し、ランダムサンプリングによるグローバルコードブック学習を用いて後部崩壊を緩和する。
低信頼の擬似ラベルを捨て、信頼性の高いターゲットドメインサンプルを生成することにより、ロバスト性をさらに向上する。
論文 参考訳(メタデータ) (2025-07-04T04:43:23Z) - Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery [3.549243565065057]
模倣学習(imitation learning)は、専門家の行動からポリシーを学ぶための、データ駆動型アプローチである。
OOS(Out-of-sample)領域では信頼性の低い結果が出る傾向がある。
本稿では,契約型力学系をモデルとした政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T14:28:18Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Reliably-stabilizing piecewise-affine neural network controllers [5.203329540700177]
モデル予測制御(MPC)ポリシーのニューラルネットワーク(NN)近似に影響を与える一般的な問題は、NNベースのコントローラの動作の下でクローズドループシステムの安定性を評価するための分析ツールがないことである。
本稿では、そのような制御器の性能を定量化したり、与えられたMPCスキームの望ましい特性を保持する最小の複雑性NNを設計するための一般的な手順を提案する。
論文 参考訳(メタデータ) (2021-11-13T20:01:43Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。