論文の概要: PRISM Risk Signal Framework: Hierarchy-Based Red Lines for AI Behavioral Risk
- arxiv url: http://arxiv.org/abs/2604.11070v1
- Date: Mon, 13 Apr 2026 06:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.370201
- Title: PRISM Risk Signal Framework: Hierarchy-Based Red Lines for AI Behavioral Risk
- Title(参考訳): PRISM Risk Signal Framework:AI行動リスクのための階層ベースのレッドライン
- Authors: Seulki Lee,
- Abstract要約: AI安全性に対する現在のアプローチでは、特定のプロンプト、特定のアウトプット、特定の害など、ケースレベルでレッドラインを定義している。
この記事では、AI推論を管理する価値、エビデンス、ソース階層のレベルにおいて、赤い線をより根本的に設定できる、と論じる。
- 参考スコア(独自算出の注目度): 3.7184769644515896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to AI safety define red lines at the case level: specific prompts, specific outputs, specific harms. This paper argues that red lines can be set more fundamentally -- at the level of value, evidence, and source hierarchies that govern AI reasoning. Using the PRISM (Profile-based Reasoning Integrity Stack Measurement) framework, we define a taxonomy of 27 behavioral risk signals derived from structural anomalies in how AI systems prioritize values (L4), weight evidence types (L3), and trust information sources (L2). Each signal is evaluated through a dual-threshold principle combining absolute rank position and relative win-rate gap, producing a two-tier classification (Confirmed Risk vs. Watch Signal). The hierarchy-based approach offers three advantages over case-specific red lines: it is anticipatory rather than reactive (detecting dangerous reasoning structures before they produce harmful outputs), comprehensive rather than enumerative (a single value-hierarchy signal subsumes an unlimited number of case-specific violations), and measurable rather than subjective (grounded in empirical forced-choice data). We demonstrate the framework's detection capacity using approximately 397,000 forced-choice responses from 7 AI models across three Authority Stack layers, showing that the signal taxonomy successfully discriminates between models with structurally extreme profiles, models with context-dependent risk, and models with balanced hierarchies.
- Abstract(参考訳): AI安全性に対する現在のアプローチでは、特定のプロンプト、特定のアウトプット、特定の害など、ケースレベルでレッドラインを定義している。
この記事では、AI推論を管理する価値、エビデンス、ソース階層のレベルにおいて、赤い線をより根本的に設定できる、と論じる。
PRISM(Profile-based Reasoning Integrity Stack Measurement)フレームワークを用いて,AIシステムが値(L4),ウェイトエビデンスタイプ(L3),信頼情報ソース(L2)を優先する方法において,構造的異常から導かれる27の行動リスク信号の分類を定義した。
各信号は、絶対ランク位置と相対的な勝利率ギャップを組み合わせた二重閾値原理により評価され、2層分類(確認リスク対ウォッチ信号)が生成される。
階層に基づくアプローチは、反応性よりも予測性(有害な出力を生成する前に危険な推論構造を検出する)、数え上げ性よりも包括性(単一の値階層信号が無制限にケース固有違反を仮定する)、主観性よりも測定性(経験的強制選択データで示される)の3つの利点を提供する。
3つのオーソリティスタック層にわたる7つのAIモデルから約397,000の強制選択応答を使用して、フレームワークの検出能力を実証し、信号分類が構造的に極端なプロファイルを持つモデル、コンテキスト依存リスクを持つモデル、バランスの取れた階層を持つモデルの間で、正常に識別可能であることを示した。
関連論文リスト
- METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models [61.33372454250959]
コンテキスト因果推論は、大規模言語モデルにとって重要なが難しい能力である。
既存のベンチマークでは、コンテキスト整合性を保証するか、完全な因果階層をカバーすることができない。
私たちはMETERの先駆者であり、因果はしごの3つのレベルすべてにわたってLSMを体系的にベンチマークしました。
論文 参考訳(メタデータ) (2026-04-13T14:07:11Z) - Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs [5.834576254792341]
CoT(Chain-of-Thought)プロンプトは、個人識別可能な情報(PII)をプロンプトから推論トレースと出力に変換することで、プライバシーリスクを増大させる。
モデルに依存しないフレームワークを用いて, 直接的, 推論時のPIIリークについて検討する。
論文 参考訳(メタデータ) (2026-03-05T19:20:44Z) - How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities [75.10343190811592]
大規模言語モデル(LLM)は、社会的に敏感なドメインにますますデプロイされる。
私たちのベンチマークでは、安全で制御可能な振る舞いのための原則的で解釈可能なフレームワークを提供しています。
論文 参考訳(メタデータ) (2026-03-03T03:50:13Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - Reliability by design: quantifying and eliminating fabrication risk in LLMs. From generative to consultative AI: a comparative analysis in the legal domain and lessons for high-stakes knowledge bases [0.0]
本稿では,幻覚を減らし,大規模言語モデルを高額な法的作業に信頼性を持たせる方法について検討する。
1)独立した生成モデル(創造的オラクル)、(2)基本的な検索強化システム(専門的アーキビスト)、(3)高度なエンドツーエンド最適化RAGシステム(厳密なアーキビスト)の3つのAIパラダイムを区別する。
論文 参考訳(メタデータ) (2026-01-21T21:26:42Z) - MultiRisk: Multiple Risk Control via Iterative Score Thresholding [40.193623095603265]
我々は、ユーザ定義の優先順位で複数のリスク制約を強制する問題を定式化する。
このシーケンシャルな構造を利用する2つの効率的な動的プログラミングアルゴリズムを導入する。
提案アルゴリズムは,個々のリスクを目標レベルに近いレベルで制御できることを示す。
論文 参考訳(メタデータ) (2025-12-31T03:25:30Z) - RHINO: Guided Reasoning for Mapping Network Logs to Adversarial Tactics and Techniques with Large Language Models [9.065322387043546]
人間の推論を反映した3つの解釈可能なフェーズに大言語モデルを分解するフレームワークであるRHINOを紹介する。
RHINOは、構造的推論による出力信頼性を改善しながら、低レベルの観測と反対方向のセマンティックギャップを橋渡しする。
以上の結果から,RHINOは脅威解析の解釈可能性やスケーラビリティを著しく向上させ,LLMを運用上のセキュリティ設定にデプロイするための青写真を提供することが示された。
論文 参考訳(メタデータ) (2025-10-16T02:25:46Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Robust-by-Design Classification via Unitary-Gradient Neural Networks [66.17379946402859]
安全クリティカルシステムにおけるニューラルネットワークの使用には、敵攻撃が存在するため、安全で堅牢なモデルが必要である。
任意の入力 x の最小逆摂動を知るか、または同値に、分類境界から x の距離は、分類ロバスト性を評価し、証明可能な予測を与える。
Unitary-Gradient Neural Networkと呼ばれる新しいネットワークアーキテクチャが紹介される。
実験結果から,提案アーキテクチャは符号付き距離を近似し,単一の推論コストでxのオンライン分類が可能であることがわかった。
論文 参考訳(メタデータ) (2022-09-09T13:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。