論文の概要: A Decision-Theoretic Approach for Managing Misalignment
- arxiv url: http://arxiv.org/abs/2512.15584v1
- Date: Wed, 17 Dec 2025 16:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.062514
- Title: A Decision-Theoretic Approach for Managing Misalignment
- Title(参考訳): ミスアライメント管理のための決定論的アプローチ
- Authors: Daniel A. Herrmann, Abinav Chari, Isabelle Qian, Sree Sharvesh, B. A. Levinstein,
- Abstract要約: 我々は、合理的なデリゲートは、エージェントの値とその精度とリーチのバランスをとる必要があると論じる。
文脈固有のデリゲーションは、重大なミスアライメントを伴っても最適であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When should we delegate decisions to AI systems? While the value alignment literature has developed techniques for shaping AI values, less attention has been paid to how to determine, under uncertainty, when imperfect alignment is good enough to justify delegation. We argue that rational delegation requires balancing an agent's value (mis)alignment with its epistemic accuracy and its reach (the acts it has available). This paper introduces a formal, decision-theoretic framework to analyze this tradeoff precisely accounting for a principal's uncertainty about these factors. Our analysis reveals a sharp distinction between two delegation scenarios. First, universal delegation (trusting an agent with any problem) demands near-perfect value alignment and total epistemic trust, conditions rarely met in practice. Second, we show that context-specific delegation can be optimal even with significant misalignment. An agent's superior accuracy or expanded reach may grant access to better overall decision problems, making delegation rational in expectation. We develop a novel scoring framework to quantify this ex ante decision. Ultimately, our work provides a principled method for determining when an AI is aligned enough for a given context, shifting the focus from achieving perfect alignment to managing the risks and rewards of delegation under uncertainty.
- Abstract(参考訳): 意思決定はいつAIシステムに委譲すべきか?
バリューアライメントの文献は、AIの値を形作る技術を開発したが、不確実性の下で、不完全なアライメントがデリゲートを正当化するのに十分なときに、どのように判断するかに注意が払われていない。
我々は、合理的なデリゲーションは、エージェントの値(ミス)アライメントと、その認識の正確さとその到達(利用可能な行為)のバランスをとる必要があると論じる。
本稿では、これらの要因に関するプリンシパルの不確実性を正確に考慮し、このトレードオフを分析するための形式的、決定論的枠組みを紹介する。
分析の結果,2つのデリゲートシナリオの明確な違いが明らかになった。
第一に、普遍的委任(問題のあるエージェントを信頼する)は、ほぼ完全な価値アライメントと全てんかん信頼を要求するが、実際にはほとんど満たされない。
第二に、コンテキスト固有のデリゲートは、重大なミスアライメントを伴っても最適であることを示す。
エージェントの優れた精度または拡張されたリーチは、より優れた全体的な決定問題へのアクセスを許可し、予測においてデリゲートを合理的にする。
この決定を定量化するための新しいスコアリングフレームワークを開発する。
結局のところ、私たちの仕事は、AIが与えられた状況に対して十分に整列しているかどうかを判断するための原則化された方法を提供し、焦点を完全な整列から不確実性の下でのデリゲートのリスクと報酬の管理に移行する。
関連論文リスト
- Normative active inference: A numerical proof of principle for a computational and economic legal analytic approach to AI governance [0.6267988254367711]
本稿では,AIエージェントの行動に法的規範がどう影響するかを計算学的に考察する。
我々は,エージェントに意図的な制御システムを与える設計による規制によって,合法的で規範に敏感なAI行動が達成可能であることを提案する。
我々は、文脈依存の嗜好が自律エージェントの安全メカニズムとしてどのように機能するかを議論することで結論付けた。
論文 参考訳(メタデータ) (2025-11-24T17:30:51Z) - Judicial Requirements for Generative AI in Legal Reasoning [0.0]
大規模言語モデル(LLM)はプロのドメインに統合されているが、法律のような高度な分野における制限は理解されていない。
本稿では、AIシステムが司法判断における信頼性の高い推論ツールとして機能しなければならない中核機能について述べる。
論文 参考訳(メタデータ) (2025-08-26T09:56:26Z) - Resource Rational Contractualism Should Guide AI Alignment [69.07915246220985]
契約主義的アライメントは、多様な利害関係者が支持する合意の中で決定を下すことを提案する。
我々は、AIシステムが合理的な当事者が形成する合意を近似する枠組みであるリソース・リアリズムを提案する。
RRC対応エージェントは、効率的に機能するだけでなく、変化する人間の社会世界への適応と解釈を動的に行うことができる。
論文 参考訳(メタデータ) (2025-06-20T18:57:13Z) - AI Alignment at Your Discretion [7.133218044328296]
AIアライメントでは、人間かアルゴリズムのいずれかのアノテータに対して、どのモデル出力がより良いか、より安全かを判断するために、緯度を付与しなければならない」。
このような判断はほとんど検討されていないままであり、(i)アノテータは任意に判断の力を利用することができ、(ii)モデルはこの判断を模倣することができない。
安全アライメントデータセットに対する人間とアルゴリズムの両方の裁量を測定することで、これまで考慮されていなかったアライメントプロセスにおける裁量層を明らかにする。
論文 参考訳(メタデータ) (2025-02-10T09:19:52Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。