論文の概要: Behavioural feasible set: Value alignment constraints on AI decision support
- arxiv url: http://arxiv.org/abs/2603.21435v1
- Date: Sun, 22 Mar 2026 22:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.416242
- Title: Behavioural feasible set: Value alignment constraints on AI decision support
- Title(参考訳): 行動可能セット:AI意思決定支援における価値整合性制約
- Authors: Taejin Park,
- Abstract要約: 組織が意思決定支援のために商用AIシステムを採用する場合、透過的でも再交渉不可能なベンダーによって埋め込まれた価値を継承する。
私はこれを実現可能なセットとして定式化し、ベンダーが定めるアライメント制約の下で到達可能な勧告の範囲を定式化し、組織的な要求がシステムの柔軟性を超えた場合の診断しきい値を特徴付けます。
- 参考スコア(独自算出の注目度): 4.770039226643351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When organisations adopt commercial AI systems for decision support, they inherit value judgements embedded by vendors that are neither transparent nor renegotiable. The governance puzzle is not whether AI can support decisions but which recommendations the system can actually produce given how its vendor has configured it. I formalise this as a behavioural feasible set, the range of recommendations reachable under vendor-imposed alignment constraints, and characterise diagnostic thresholds for when organisational requirements exceed the system's flexibility. In scenario-based experiments using binary decision scenarios and multi-stakeholder ranking tasks, I show that alignment materially compresses this set. Comparing pre- and post-alignment variants of an open-weight model isolates the mechanism: alignment makes the system substantially less able to shift its recommendation even under legitimate contextual pressure. Leading commercial models exhibit comparable or greater rigidity. In multi-stakeholder tasks, alignment shifts implied stakeholder priorities rather than neutralising them, meaning organisations adopt embedded value orientations set upstream by the vendor. Organisations thus face a governance problem that better prompting cannot resolve: selecting a vendor partially determines which trade-offs remain negotiable and which stakeholder priorities are structurally embedded.
- Abstract(参考訳): 企業が意思決定支援のために商用AIシステムを採用する場合、透過的でも再交渉不可能なベンダーが組み込んだ価値判断を継承する。
ガバナンスのパズルは、AIが意思決定をサポートすることができるかどうかではなく、どのレコメンデーションが実際に生成できるのか、ベンダーがどのように構成したか、という点だ。
私はこれを行動可能なセットとして定式化し、ベンダーが定めるアライメント制約の下で到達可能なレコメンデーションの範囲を定式化し、組織の要求がシステムの柔軟性を超えた場合の診断しきい値を特徴付けます。
二項決定シナリオとマルチステークホルダランキングタスクを用いたシナリオベース実験では、アライメントがこのセットを効果的に圧縮することを示す。
オープンウェイトモデルのアライメント前とポストアライメント後の比較は、このメカニズムを分離する。
主要な商用モデルは、同等またはより大きな剛性を示す。
マルチステークホルダーのタスクでは、アライメントシフトは利害関係者の優先順位を中立化するのではなく示唆する。
ベンダーの選択は、どのトレードオフが交渉可能なままで、どのステークホルダーの優先順位が構造的に埋め込まれているかを部分的に決定します。
関連論文リスト
- HIPO: Instruction Hierarchy via Constrained Reinforcement Learning [57.40686733111483]
textscHIPOは、制約付きマルコフ決定プロセスとしてHIFを定式化する新しいアライメントフレームワークである。
textscHIPOはシステムプロンプトを単に入力コンテキストから厳密なアルゴリズム境界まで高める。
論文 参考訳(メタデータ) (2026-03-17T06:12:41Z) - DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - Selection as Power: Constrained Reinforcement for Bounded Decision Authority [0.0]
そこでは,外部に強制された主権制約の下でのスコアリングとリデューサパラメータに強化更新を適用して,インセンティブ付き選択ガバナンスを導入する。
更新ステップ毎に主権の制約が課される場合,学習ダイナミクスは構造的多様性と共存可能であることを示す。
これらの結果は,各更新ステップで主権制約が適用された場合,動的学習が構造的多様性と共存可能であることを示す。
論文 参考訳(メタデータ) (2026-03-02T16:02:34Z) - Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive [0.0]
AIシステムは、標準によって管理されるという前提の下で、ハイステークな状況にますますデプロイされている。
本稿では,最適化システムに対して仮定が正式に無効であることを示す。
論文 参考訳(メタデータ) (2026-02-26T17:16:17Z) - Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously [51.03213216886717]
我々は、一般的なアライメントの支配的なパラダイムが、矛盾する値の設定において構造的な天井に達するという立場を取る。
エッジアライメント(Edge Alignment)は,多次元の値構造を保持するシステムにおいて,異なるアプローチである。
論文 参考訳(メタデータ) (2026-02-23T16:51:43Z) - Towards Selection as Power: Bounding Decision Authority in Autonomous Agents [0.0]
我々は、認知、選択、行動を独立したドメインに分離し、自律性を主権のベクトルとしてモデル化するガバナンスアーキテクチャを提案する。
変動操作,しきい値ゲーム,フレーミングスキュー,順序付け効果,エントロピー探索を対象とし,複数の規制された金融シナリオを対象としたシステムの評価を行った。
その結果、機械的選択ガバナンスは実装可能であり、監査可能であり、推論能力を維持しながら決定論的結果の獲得を防止することが示されている。
論文 参考訳(メタデータ) (2026-02-16T10:10:47Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Admissibility Alignment [0.0]
本稿では,不確実性を考慮した意思決定のための新しい制御プレーンシステムアーキテクチャMAP-AIを提案する。
モンテカルロによる結果分布の推定と、許容性制御された政策選択を通じてアライメントを実施する。
本研究では,アライメント評価を意思決定自体に統合し,適応性制御された行動選択機構を実現する方法を示す。
論文 参考訳(メタデータ) (2026-01-05T05:58:19Z) - DecisionFlow: Advancing Large Language Model as Principled Decision Maker [49.088778182807395]
DecisionFlowは、モデルにアクション、属性、制約の構造化された表現を推論するように誘導する、新しい決定モデリングフレームワークである。
プロンプトから直接回答を予測するのではなく、DecisionFlowは意味論的に根拠のある決定空間を構築し、潜在ユーティリティ関数を推論する。
実験の結果,DecisionFlowの精度は,強いプロンプトベースラインよりも最大30%向上した。
論文 参考訳(メタデータ) (2025-05-27T16:23:53Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。