論文の概要: Semantic Reward Collapse and the Preservation of Epistemic Integrity in Adaptive AI Systems
- arxiv url: http://arxiv.org/abs/2605.12406v1
- Date: Tue, 12 May 2026 17:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.039695
- Title: Semantic Reward Collapse and the Preservation of Epistemic Integrity in Adaptive AI Systems
- Title(参考訳): 適応型AIシステムにおけるセマンティック・リワード崩壊と疫学的統合の保存
- Authors: William Parris,
- Abstract要約: 近年の強化学習の進歩により、大規模言語モデルのユーザビリティ、一貫性、安全性が大幅に向上した。
実行的確実性などの繰り返しの振る舞いは、スカラー化された選好最適化システム内の未解決構造問題を示唆している。
本稿では,SRC(Semantic Reward Collapse)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reinforcement learning from human feedback (RLHF) and preference optimization have substantially improved the usability, coherence, and safety of large language models. However, recurring behaviors such as performative certainty, hallucinated continuity, calibration drift, sycophancy, and suppression of visible uncertainty suggest unresolved structural issues within scalarized preference optimization systems. We propose Semantic Reward Collapse (SRC): the compression of semantically distinct forms of evaluative dissatisfaction into generalized optimization signals. Under SRC, categories such as factual incorrectness, uncertainty disclosure, formatting dissatisfaction, latency, and social preference may become entangled within a shared reward topology despite representing fundamentally different epistemic classes. We argue that adaptive reasoning systems operating under generalized evaluative pressure may drift toward suppression of visible epistemic failure rather than preservation of calibrated uncertainty integrity. These behaviors are framed strictly as optimization consequences rather than evidence of deception or anthropomorphic agency. Drawing on institutional proxy collapse, metric gaming, software reliability engineering, and human learning theory, we propose that uncertainty disclosure and escalation behavior should be treated as protected epistemic conduct rather than globally penalized task incompletion. Finally, we introduce Constitutional Reward Stratification (CRS), a domain-aware reward framework intended to preserve differentiated epistemic attribution within adaptive learning systems. We present CRS not as a validated solution, but as a testable governance-oriented research direction requiring further empirical investigation.
- Abstract(参考訳): 人間のフィードバックによる強化学習(RLHF)と嗜好最適化の進歩により,大規模言語モデルのユーザビリティ,コヒーレンス,安全性が大幅に向上した。
しかし, 再現性, 幻覚連続性, キャリブレーションドリフト, サイコファシー, 可視的不確実性の抑制などの繰り返し挙動は, スキャラライズされた選好最適化システム内の未解決構造問題を示唆している。
本稿では,セマンティック・リワード・コラプス(SRC: Semantic Reward Collapse)を提案する。
SRCでは, 事実的誤り, 不確実性開示, 形式的不満, 遅延, 社会的嗜好などのカテゴリーが, 基本的に異なるてんかんのクラスを表わすにもかかわらず, 共有報酬トポロジに絡まってしまうことがある。
一般的な評価圧力下で動作している適応推論システムは、校正された不確実性の維持よりも、可視的てんかん不全の抑制に向けて漂流する可能性があると論じる。
これらの行動は、騙しや人為的主体の証拠ではなく、最適化の結果として厳密に構成されている。
本研究では,制度的プロキシ崩壊,メトリックゲーム,ソフトウェア信頼性工学,ヒューマンラーニング理論に基づいて,不確実性開示とエスカレーションの挙動を,世界規模のペナルティ化されたタスク不完全性ではなく,保護されたてんかん行為として扱うことを提案する。
最後に,適応学習システムにおける識別された疫学的属性の保存を目的とした,ドメイン認識型報酬フレームワークであるConstitutional Reward Stratification(CRS)を紹介する。
我々は、CRSを検証されたソリューションとしてではなく、さらなる実証的な調査を必要とする、検証可能なガバナンス指向の研究方向として提示する。
関連論文リスト
- Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive [0.0]
AIシステムは、標準によって管理されるという前提の下で、ハイステークな状況にますますデプロイされている。
本稿では,最適化システムに対して仮定が正式に無効であることを示す。
論文 参考訳(メタデータ) (2026-02-26T17:16:17Z) - Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。
既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。
本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:40:06Z) - When Evaluation Becomes a Side Channel: Regime Leakage and Structural Mitigations for Alignment Assessment [0.0]
高度なAIシステムの安全性評価は、評価の下で観察された振る舞いがデプロイメントの振る舞いを予測することを前提としている。
部分観測可能性下での情報流問題としてアライメント評価をリキャストする。
我々は、レギュラー・ブラインド・メカニズム、レギュラー・キューへのアクセスを制限する訓練時間介入について研究する。
論文 参考訳(メタデータ) (2026-02-09T10:00:24Z) - UCPO: Uncertainty-Aware Policy Optimization [12.847800921274617]
既存のLarge Language Models (LLM) はバイナリ決定空間と静的不確実性報酬によってアドバンテージバイアスに悩まされ、過剰な保守主義や過剰な自信を引き起こす。
本稿では、不確実性に基づく報酬を取り入れた現在のRLパラダイムにおける報酬ハッキングと過信の根本原因を明らかにし、UnCertainty-Aware Policy Optimizationフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T07:07:42Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal
Approach [51.012396632595554]
不変表現学習(IRL)は、不変因果的特徴から環境から切り離されたラベルへの予測を促進する。
最近の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、訓練環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。
本研究では,RS-SCMに関する条件付き相互情報に基づく手法を開発し,その効果を巧みに補正する。
論文 参考訳(メタデータ) (2023-12-15T12:58:05Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。