論文の概要: Moral Anchor System: A Predictive Framework for AI Value Alignment and Drift Prevention
- arxiv url: http://arxiv.org/abs/2510.04073v1
- Date: Sun, 05 Oct 2025 07:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.442323
- Title: Moral Anchor System: A Predictive Framework for AI Value Alignment and Drift Prevention
- Title(参考訳): モラルアンカーシステム:AIの価値アライメントとドリフト防止のための予測フレームワーク
- Authors: Santhosh Kumar Ravindran,
- Abstract要約: 重要なリスクはバリュードリフトであり、進化するコンテキストや学習ダイナミクス、意図しない最適化によって、AIシステムが一致した値から逸脱する。
我々は,AIエージェントの値ドリフトを検出し,予測し,緩和する新しいフレームワークであるMoral Anchor System(MAS)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rise of artificial intelligence (AI) as super-capable assistants has transformed productivity and decision-making across domains. Yet, this integration raises critical concerns about value alignment - ensuring AI behaviors remain consistent with human ethics and intentions. A key risk is value drift, where AI systems deviate from aligned values due to evolving contexts, learning dynamics, or unintended optimizations, potentially leading to inefficiencies or ethical breaches. We propose the Moral Anchor System (MAS), a novel framework to detect, predict, and mitigate value drift in AI agents. MAS combines real-time Bayesian inference for monitoring value states, LSTM networks for forecasting drift, and a human-centric governance layer for adaptive interventions. It emphasizes low-latency responses (<20 ms) to prevent breaches, while reducing false positives and alert fatigue via supervised fine-tuning with human feedback. Our hypothesis: integrating probabilistic drift detection, predictive analytics, and adaptive governance can reduce value drift incidents by 80 percent or more in simulations, maintaining high detection accuracy (85 percent) and low false positive rates (0.08 post-adaptation). Rigorous experiments with goal-misaligned agents validate MAS's scalability and responsiveness. MAS's originality lies in its predictive and adaptive nature, contrasting static alignment methods. Contributions include: (1) MAS architecture for AI integration; (2) empirical results prioritizing speed and usability; (3) cross-domain applicability insights; and (4) open-source code for replication.
- Abstract(参考訳): 超能力アシスタントとしての人工知能(AI)の台頭は、ドメイン間の生産性と意思決定を変革した。
しかし、この統合は、価値の整合性に関する重要な懸念を生じさせ、AIの振る舞いが人間の倫理や意図と一致し続けることを保証する。
重要なリスクはバリュードリフトであり、進化するコンテキストや学習ダイナミクス、意図しない最適化によって、AIシステムが整合した値から逸脱し、非効率性や倫理的違反につながる可能性がある。
我々は,AIエージェントの値ドリフトを検出し,予測し,緩和する新しいフレームワークであるMoral Anchor System(MAS)を提案する。
MASは、値状態を監視するためのリアルタイムベイズ推論、ドリフトを予測するLSTMネットワーク、適応的介入のための人間中心のガバナンス層を組み合わせる。
低遅延応答(20ms)を強調し、人間のフィードバックによる微調整によって偽陽性と警告疲労を低減させる。
我々の仮説は、確率的ドリフト検出、予測分析、適応的ガバナンスを統合することで、シミュレーションにおいて価値ドリフトインシデントを80%以上削減し、高い検出精度(85%)と低い偽陽性率(0.08ポスト適応)を維持します。
ゴールミスアライメントエージェントによる厳密な実験は、MASのスケーラビリティと応答性を検証する。
MASの独創性は、静的アライメント法とは対照的に、予測的かつ適応的な性質にある。
コントリビューションには,(1)AI統合のためのMASアーキテクチャ,(2)スピードとユーザビリティを優先する実証的な結果,(3)ドメイン間の適用可能性に関する洞察,(4)レプリケーションのためのオープンソースコードなどが含まれている。
関連論文リスト
- Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Deciding When Not to Decide: Indeterminacy-Aware Intrusion Detection with NeutroSENSE [0.0]
NeutroSENSEは、IoT環境における侵入検出を解釈するためのニュートロゾフィックのアンサンブルフレームワークである。
システムは予測信頼を真理(T)、虚偽(F)、不確定性(I)に分解し、不確実な定量化と棄却を可能にする。
論文 参考訳(メタデータ) (2025-06-05T11:43:31Z) - AI-Driven IRM: Transforming insider risk management with adaptive scoring and LLM-based threat detection [0.31457219084519]
インサイダーの脅威は、組織のセキュリティに重大な課題をもたらします。
IRMシステムは行動分析、動的リスクスコアリング、リアルタイムポリシー適用を統合している。
システムは偽陽性を59%減少させ、真の正検出率を30%向上させる。
論文 参考訳(メタデータ) (2025-05-01T18:41:00Z) - Trustworthiness in Stochastic Systems: Towards Opening the Black Box [1.7355698649527407]
AIシステムによる行動は、アライメントと潜在的な信頼を損なう恐れがある。
我々は、基礎性と信頼性の間の緊張と潜在的な対立に対して哲学的な視点を採っている。
我々は,AIシステムとユーザの両方に対して,アライメントをよりよく評価するための潜在値モデリングを提案する。
論文 参考訳(メタデータ) (2025-01-27T19:43:09Z) - Optical aberrations in autonomous driving: Physics-informed parameterized temperature scaling for neural network uncertainty calibration [49.03824084306578]
本稿では,ニューラルネットワークのキャリブレーションアーキテクチャに物理的帰納バイアスを組み込むことにより,AIターゲットアプリケーションの堅牢性と信頼性を高めることを提案する。
信頼に値する不確実性表現と認識連鎖の総合的検証戦略の道を開く。
論文 参考訳(メタデータ) (2024-12-18T10:36:46Z) - UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection [18.25576487115016]
本稿では,Human-Object Interaction(HOI)検出について述べる。
与えられた画像やビデオフレーム内の人間とオブジェクト間の相互作用を識別し、理解するという課題に対処する。
本研究では,不確実性を考慮したロバストなヒューマンオブジェクトインタラクション学習であるtextscUAHOIを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:06:39Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - RACER: Rational Artificial Intelligence Car-following-model Enhanced by Reality [46.909086734963665]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。
従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。
RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文 参考訳(メタデータ) (2023-12-12T06:21:30Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。