論文の概要: Frictive Policy Optimization for LLMs: Epistemic Intervention, Risk-Sensitive Control, and Reflective Alignment
- arxiv url: http://arxiv.org/abs/2604.25136v1
- Date: Tue, 28 Apr 2026 02:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.669531
- Title: Frictive Policy Optimization for LLMs: Epistemic Intervention, Risk-Sensitive Control, and Reflective Alignment
- Title(参考訳): LLMのフラクティブポリシー最適化: 疫学介入, リスク感作制御, 反射アライメント
- Authors: James Pustejovsky, Nikhil Krishnaswamy,
- Abstract要約: FPO(Frictive Policy Optimization)は、言語モデルポリシーを学ぶためのフレームワークである。
本稿では,複数のアライメント障害モードを運用する構造的摩擦関数と,報酬形成,選好ペアリング,グループ相対格付け,リスク条件付き信頼領域にまたがるFPO手法の統一ファミリーを導入する。
- 参考スコア(独自算出の注目度): 11.243856942345955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Frictive Policy Optimization (FPO), a framework for learning language model policies that regulate not only what to say, but when and how to intervene in order to manage epistemic and normative risk. Unlike standard alignment methods that optimize surface-level preference or task utility, FPO treats clarification, verification, challenge, redirection, and refusal as explicit control actions whose purpose is to shape the evolution of belief, commitment, and uncertainty over time. We formalize alignment as a risk-sensitive epistemic control problem in which intervention decisions are selected based on their expected effect on downstream epistemic quality rather than on immediate reward alone. We introduce a compact taxonomy of frictive interventions, a structured friction functional that operationalizes multiple alignment failure modes, and a unified family of FPO methods spanning reward shaping, preference pairing, group-relative ranking, and risk-conditioned trust regions. We further propose an evaluation framework that measures epistemic competence directly through clarification behavior, calibration, contradiction repair, refusal proportionality, and information efficiency. Together, these results provide a formal and algorithmic foundation for learning agents that are aligned not only in outcome, but in epistemic conduct.
- Abstract(参考訳): 本稿では, 言語モデル政策を学習するためのフレームワークFPOを提案する。これは, 言論だけでなく, 認識的・規範的リスクを管理するために, どのように介入するかを規定するものである。
表面レベルの嗜好やタスクユーティリティを最適化する標準的なアライメント手法とは異なり、FPOは明確化、検証、チャレンジ、リダイレクト、拒絶を、時間とともに信念、コミットメント、不確実性の進化を形作ることを目的とした明示的なコントロールアクションとして扱う。
我々は、即時報酬のみではなく、下流のてんかん品質に期待される影響に基づいて介入決定が選択されるリスク感受性てんかん制御問題としてアライメントを定式化する。
本稿では,複数のアライメント障害モードを運用する構造的摩擦関数と,報酬形成,選好ペアリング,グループ相対格付け,リスク条件付き信頼領域にまたがるFPO手法の統一ファミリーを導入する。
さらに,説明行動,校正,矛盾修復,拒絶比例性,情報効率などを通じて,てんかんの能力を直接測定する評価枠組みを提案する。
これらの結果は、結果だけでなく、エピステマティックな行動において整列している学習エージェントに対して、フォーマルでアルゴリズム的な基礎を提供する。
関連論文リスト
- What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects [0.0]
下流アクターが私的情報を利用する場合、リコメンデーション福祉は学習者評価可能な治療方針を厳格に超えることができることを示す。
有限コンテキスト2乗IV問題に対して,パラメータフリー位相共役アルゴリズムBRACEを提案する。
我々はこの理論を、直接制御にまたがる有限コンテキスト経験的ベンチマークで補完し、現在の未来的トレードオフ、弱い識別、均一性障害、長方形の過剰識別を媒介する。
論文 参考訳(メタデータ) (2026-03-10T11:40:42Z) - When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering [10.01278648231868]
ポリシーステアリングは、デプロイ時にロボットの振る舞いを適用する新しい方法です。
VLM(Vision-Language Models)は、それらの推論能力のために、汎用的な検証を約束する。
セマンティックタスクの不確実性と低レベルのアクション実現可能性について共同で理由づけるフレームワークである不確実性対応型ポリシーステアリング(UPS)を提案する。
論文 参考訳(メタデータ) (2026-02-25T23:23:22Z) - Admissibility Alignment [0.0]
本稿では,不確実性を考慮した意思決定のための新しい制御プレーンシステムアーキテクチャMAP-AIを提案する。
モンテカルロによる結果分布の推定と、許容性制御された政策選択を通じてアライメントを実施する。
本研究では,アライメント評価を意思決定自体に統合し,適応性制御された行動選択機構を実現する方法を示す。
論文 参考訳(メタデータ) (2026-01-05T05:58:19Z) - Transfer Learning for Classification under Decision Rule Drift with Application to Optimal Individualized Treatment Rule Estimation [50.34670342434884]
本研究では,ベイズ決定規則による後方ドリフトのモデル化手法を提案する。
穏やかな規則性条件の下では、推定器の整合性を確立し、リスク境界を導出する。
本稿では,最適な個別化処理ルールの推定に適応させることにより,本手法の幅広い適用性について述べる。
論文 参考訳(メタデータ) (2025-08-28T16:03:06Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Assessing the Impact of Context Inference Error and Partial
Observability on RL Methods for Just-In-Time Adaptive Interventions [12.762365585427377]
ジャスト・イン・タイム・アダプティブ・インターベンション(Just-in-Time Adaptive Interventions, JITAI)は、行動科学コミュニティ内で開発されたパーソナライズされた健康介入のクラスである。
JITAIは、事前定義されたコンポーネントセットから介入オプションのシーケンスを反復的に選択することで、適切なタイプとサポート量を提供することを目指している。
本研究では,文脈推定誤差と部分観測可能性が効果的な政策学習能力に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-17T02:46:37Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Optimal Inspection and Maintenance Planning for Deteriorating Structural
Components through Dynamic Bayesian Networks and Markov Decision Processes [0.0]
部分的に観測可能なマルコフ決定過程(POMDPs)は、不確実な行動結果と観測下での最適制御のための数学的方法論を提供する。
本稿では, 有限地平線POMDPを構造的信頼性の文脈で開発するための定式化について述べる。
その結果,従来の問題設定においても,POMDPのコストは従来に比べて大幅に低減した。
論文 参考訳(メタデータ) (2020-09-09T20:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。