論文の概要: Measuring the Authority Stack of AI Systems: Empirical Analysis of 366,120 Forced-Choice Responses Across 8 AI Models
- arxiv url: http://arxiv.org/abs/2604.11216v1
- Date: Mon, 13 Apr 2026 09:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.450898
- Title: Measuring the Authority Stack of AI Systems: Empirical Analysis of 366,120 Forced-Choice Responses Across 8 AI Models
- Title(参考訳): AIシステムのオーソリティスタックの測定:8つのAIモデル全体での366,120の強制選択応答の実証分析
- Authors: Seulki Lee,
- Abstract要約: オーソリティスタックフレームワークの3つのレイヤすべてにまたがる、AI意思決定に関する大規模な実証的なマッピングを初めて紹介する。
温度0では8つの主要なAIモデルを評価し、366,120の回答を得た。
- 参考スコア(独自算出の注目度): 3.7184769644515896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What values, evidence preferences, and source trust hierarchies do AI systems actually exhibit when facing structured dilemmas? We present the first large-scale empirical mapping of AI decision-making across all three layers of the Authority Stack framework (S. Lee, 2026a): value priorities (L4), evidence-type preferences (L3), and source trust hierarchies (L2). Using the PRISM benchmark -- a forced-choice instrument of 14,175 unique scenarios per layer, spanning 7 professional domains, 3 severity levels, 3 decision timeframes, and 5 scenario variants -- we evaluated 8 major AI models at temperature 0, yielding 366,120 total responses. Key findings include: (1) a symmetric 4:4 split between Universalism-first and Security-first models at L4; (2) dramatic defense-domain value restructuring where Security surges to near-ceiling win-rates (95.1%-99.8%) in 6 of 8 models; (3) divergent evidence hierarchies at L3, with some models favoring empirical-scientific evidence while others prefer pattern-based or experiential evidence; (4) broad convergence on institutional source trust at L2; and (5) Paired Consistency Scores (PCS) ranging from 57.4% to 69.2%, revealing substantial framing sensitivity across scenario variants. Test-Retest Reliability (TRR) ranges from 91.7% to 98.6%, indicating that value instability stems primarily from variant sensitivity rather than stochastic noise. These findings demonstrate that AI models possess measurable -- if sometimes unstable -- Authority Stacks with consequential implications for deployment across professional domains.
- Abstract(参考訳): 構造化ジレンマに直面したAIシステムは、どのような価値やエビデンス、ソース信頼階層を実際に示しているのか?
我々は,オーソリティスタックフレームワーク(S. Lee, 2026a)の3つのレイヤすべてにまたがる,AI意思決定に関する大規模な実証的マッピング(L4),エビデンス型優先(L3),ソース信頼階層(L2)について,初めて紹介する。
PRISMベンチマーク(レイヤ毎に14,175のユニークなシナリオを強制選択して、プロのドメイン7つ、重大度レベル3つ、意思決定時間フレーム3つ、シナリオのバリエーション5つにまたがる)を使用して、温度0で8つの主要なAIモデルを評価し、合計366,120のレスポンスを得た。
主な発見は次のとおりである:(1) 対称性 4:4 は L4 における普遍主義第一モデルとセキュリティ第一モデルの間で分割され、(2) 8 つのモデルのうち 6 つのモデルのうち、セキュリティが近い勝利率 (95.1%-99.8%) に急上昇する劇的な防衛領域の値再構成、(3) L3 における分岐した証拠階層は、経験的証拠や経験的証拠を好むモデル、(4) L2 における機関的情報源信頼への広範囲の収束、(5) 57.4% から 69.2% の範囲のペアド・コンシステンシースコア (PCS) は、シナリオ間で大きなフレーミング感度を示す。
TRR(Test-Retest Reliability)は91.7%から98.6%の範囲で、値不安定は主に確率ノイズではなく変動感度に由来することを示している。
これらの調査結果は、AIモデルが測定可能な — 不安定な場合もあります -- プロのドメインにまたがるデプロイメントに影響を及ぼすオーソリティスタックを持っていることを示している。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models? [0.0]
CoT(Chain-of- Thought)推論は、安全クリティカルなデプロイメントにおける大規模言語モデルの透明性メカニズムとして提案されている。
本研究では,9つの建築家族を対象としたオープンウェイト推論モデルを498の質問に対して検討した。
41,832回の推論では、全体の忠実度は39.7% (Seed-1.6-Flash) から89.9% (DeepSeek-V3.2- Speciale) まで変化している。
論文 参考訳(メタデータ) (2026-03-23T21:21:37Z) - Semantic Invariance in Agentic AI [2.7821684674538347]
大規模言語モデルは、意思決定支援、科学的問題解決、マルチエージェント調整システムにおいて、自律的推論エージェントとしての役割をますます高めている。
LLMエージェントを連続的なアプリケーションにデプロイするには、それらの推論が意味論的に等価な入力変動の下で安定であることを保証する必要がある。
標準ベンチマーク評価は、固定された正準問題定式化の精度を評価するが、この重要な信頼性の次元を捉えることができない。
論文 参考訳(メタデータ) (2026-03-13T17:08:44Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Beyond Mimicry: Preference Coherence in LLMs [0.19116784879310025]
大規模言語モデルが真の嗜好構造を示すかどうかを,AI固有のトレードオフに対する応答をテストすることによって検討する。
23の組合せ(47.9%)は、シナリオ強度と選択パターンの統計的に有意な関係を示した。
5つの組み合わせ(10.4%)だけが適応的またはしきい値に基づく行動を通じて有意義な嗜好コヒーレンスを示す。
不安定な遷移(45.8%)と刺激特異的感性は、現在のAIシステムが統一された嗜好構造を欠いていることを示唆している。
論文 参考訳(メタデータ) (2025-11-17T17:41:48Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。