Fugu-MT 論文翻訳(概要): Do LLMs Follow Their Own Rules? A Reflexive Audit of Self-Stated Safety Policies

論文の概要: Do LLMs Follow Their Own Rules? A Reflexive Audit of Self-Stated Safety Policies

arxiv url: http://arxiv.org/abs/2604.09189v1
Date: Fri, 10 Apr 2026 10:18:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.819572
Title: Do LLMs Follow Their Own Rules? A Reflexive Audit of Self-Stated Safety Policies
Title（参考訳）: LLMは独自のルールに従うか? 自己決定型安全政策の反射的監査
Authors: Avni Mittal,
Abstract要約: LLMは、RLHFを通じて安全ポリシーを内部化するが、これらのポリシーは公式には指定されず、検査も困難である。既存のベンチマークは、モデルを外部標準に対して評価するが、モデルが自身のバウンダリを理解し、強制するかどうかを測定することはない。本稿では,構造化されたプロンプトを介して,モデルが自己決定する安全ルールを抽出するフレームワークであるSNCAを紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLMs internalize safety policies through RLHF, yet these policies are never formally specified and remain difficult to inspect. Existing benchmarks evaluate models against external standards but do not measure whether models understand and enforce their own stated boundaries. We introduce the Symbolic-Neural Consistency Audit (SNCA), a framework that (1) extracts a model's self-stated safety rules via structured prompts, (2) formalizes them as typed predicates (Absolute, Conditional, Adaptive), and (3) measures behavioral compliance via deterministic comparison against harm benchmarks. Evaluating four frontier models across 45 harm categories and 47,496 observations reveals systematic gaps between stated policy and observed behavior: models claiming absolute refusal frequently comply with harmful prompts, reasoning models achieve the highest self-consistency but fail to articulate policies for 29% of categories, and cross-model agreement on rule types is remarkably low (11%). These results demonstrate that the gap between what LLMs say and what they do is measurable and architecture-dependent, motivating reflexive consistency audits as a complement to behavioral benchmarks.
Abstract（参考訳）: LLMは、RLHFを通じて安全ポリシーを内部化するが、これらのポリシーは公式には指定されず、検査も困難である。既存のベンチマークは、モデルを外部標準に対して評価するが、モデルが自身の宣言された境界を理解し、強制するかどうかを測定することはない。本稿では,(1)構造化されたプロンプトによる自己決定型安全ルールの抽出,(2)型付き述語(絶対的,条件的,適応的)として定式化,(3)有害ベンチマークに対する決定論的比較による行動コンプライアンスの計測を行うフレームワークであるSNCAを紹介する。絶対的拒絶を主張するモデルは有害なプロンプトに頻繁に従うことがあり、推論モデルは最高の自己整合性を達成するが、カテゴリーの29%のポリシーを具体化できず、ルールタイプに関するクロスモデル合意は著しく低い(11%)。これらの結果は、LCMが言うこととそれらが行うことのギャップが測定可能であり、アーキテクチャに依存し、行動ベンチマークの補完として反射的整合性監査を動機付けていることを示している。

関連論文リスト

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文参考訳（メタデータ） (2026-03-10T14:16:43Z)
Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation [0.0]
部分観測可能性下での統計的識別可能性のレンズによるアライメント評価について検討した。我々は、アライメント検証可能性問題を定式化し、ノーマティブ識別可能性を導入する。以上の結果から,行動ベンチマークは,評価意識下での遅延アライメントに必要だが不十分な証拠を提供することが示された。
論文参考訳（メタデータ） (2026-02-05T13:40:56Z)
COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs [19.742967013586927]
本稿では,大規模言語モデルが組織的な許容範囲と否定範囲のポリシーに準拠しているかどうかを評価するための最初の体系的枠組みを提案する。モデルは正当な要求を確実に処理するが、破滅的に禁止を強制することに失敗し、敵の否定主義違反の13-40%しか否定しないことを示す。
論文参考訳（メタデータ） (2026-01-05T06:57:45Z)
SSR: Socratic Self-Refine for Large Language Model Reasoning [78.62319252287938]
Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。 5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
論文参考訳（メタデータ） (2025-11-13T18:47:07Z)
VAL-Bench: Measuring Value Alignment in Language Models [10.745372809345412]
大きな言語モデル(LLM)は、出力が人間の決定を形作るタスクにますます使われています。既存のベンチマークは、主に拒否や事前定義された安全違反を追跡するが、モデルが一貫性のある価値システムを保持するかどうかを明らかにしない。 VAL-Bench(Value ALignment Benchmark)を導入し、モデルが公開討論の両面において安定的な価値スタンスを維持しているかどうかを評価する。
論文参考訳（メタデータ） (2025-10-06T23:55:48Z)
SpecEval: Evaluating Model Adherence to Behavior Specifications [63.13000010340958]
提供者仕様に対してモデルを監査する自動化フレームワークを導入します。私たちの中心となる焦点は、プロバイダ仕様とモデルアウトプット、および審査員としての自身のモデルの間の3つの方法の整合性にあります。当社のフレームワークは、100以上の行動ステートメントにわたる6人の開発者から16のモデルに適用し、プロバイダ間で最大20%のコンプライアンスギャップを含む、体系的な不整合を見つけました。
論文参考訳（メタデータ） (2025-09-02T16:18:40Z)
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文参考訳（メタデータ） (2025-02-03T18:59:16Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。 RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文参考訳（メタデータ） (2023-11-06T08:50:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。