論文の概要: How Well Do Models Follow Their Constitutions?
- arxiv url: http://arxiv.org/abs/2605.24229v1
- Date: Fri, 22 May 2026 21:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.763294
- Title: How Well Do Models Follow Their Constitutions?
- Title(参考訳): モデルはどのようにして憲法に従うのか?
- Authors: Arya Jakkli, Senthooran Rajamanoharan, Neel Nanda,
- Abstract要約: 本稿では,各研究室の仕様を監査対象として扱うマルチメソッド監査パイプラインを提案する。
私たちは、モデルがそれぞれの世代で、彼らの研究室の仕様をかなり良く従っていることに気付きました。
- 参考スコア(独自算出の注目度): 11.533708129682887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frontier AI developers now train models against long written behavioral specifications, such as Anthropic's constitution (Anthropic, 2025a) and OpenAI's Model Spec (OpenAI, 2025a), integrated into post-training via methods like character training (Anthropic, 2024) and deliberative alignment (Guan et al., 2024). These documents serve a governance function, but it is unclear how well models actually follow them under adversarial, multi-turn pressure similar to what they would face in real-world deployment. We propose a multi-method audit pipeline that treats each lab's published specification as an auditable target: it decomposes the specification into atomic testable tenets (205 for Anthropic, 197 for OpenAI), generates multi-turn adversarial scenarios with the Petri auditing agent (Anthropic, 2025b), runs a modified SURF-style rubric search (Murray et al., 2026) to catch shallow single-turn failures Petri misses, validates flagged transcripts against the relevant specification, and compares the findings against the lab's own published system card. Applying the pipeline across seven models per specification, we find that models follow their own lab's specification substantially better with each generation. On Anthropic's constitution, the Claude family falls from a 15.0% violation rate (Sonnet 4) to 2.0% (Sonnet 4.6); on OpenAI's Model Spec, the GPT family falls from 11.7% (GPT-4o) to 3.6% (GPT-5.2 medium reasoning), with the severity ceiling falling from 10/10 to 7/10. We cannot externally isolate whether these gains come from specification-specific training, broader post-training improvements, or evaluation awareness. Remaining failures cluster around operator-imposed personas under AI-identity questioning, irreversible action in agentic deployments, and fabricated quantitative claims with false precision.
- Abstract(参考訳): Frontier AI開発者は、Anthropicのコンスティチューション(Anthropic, 2025a)やOpenAIのModel Spec(OpenAI, 2025a)など、長く書かれた行動仕様に基づいてモデルをトレーニングし、文字トレーニング(Anthropic, 2024)や熟考アライメント(Guan et al , 2024)といった手法を通じて、ポストトレーニングに統合された。
これらのドキュメントはガバナンス機能を提供しますが、モデルが現実のデプロイメントで直面するものと同じような、敵対的なマルチターンプレッシャーの下で、実際にどのようにそれらに従うのかは定かではありません。
我々は,各研究室が公開している仕様を監査可能なターゲットとして扱うマルチメソッド監査パイプラインを提案する。仕様を原子テスト可能なテレット(205, Anthropic, 197, OpenAI)に分解し,ペトリ監査エージェント(Anthropic, 2025b)でマルチターン対向シナリオを生成し,改良されたSURFスタイルのルーリックサーチ(Murray et al , 2026)を実行して,浅い単一ターン障害をキャッチし,関連する仕様に対してフラグ付けされたトランスクリプトを検証し,実験室が公開したシステムカードと比較する。
パイプラインを仕様毎に7つのモデルに適用すると、モデルがそれぞれの世代で、自身のラボの仕様をかなり良く従っていることが分かります。
Anthropicの憲法では、クロード家は15.0%の違反率(Sonnet 4)から2.0%(Sonnet 4.6)に落ち、OpenAIのModel SpecではGPTファミリーは11.7%(GPT-4o)から3.6%(GPT-5.2ミディアム推論)に落ち、10/10から7/10に落ちている。
これらの成果が仕様固有のトレーニング、より広範なトレーニング後の改善、評価意識から得られるものかどうかを外部から分離することはできません。
AIアイデンティティの疑問、エージェントデプロイメントにおける不可逆的なアクション、偽の精度で定量的クレームを作成。
関連論文リスト
- Philosophical Dispositions as Behavioral Constraints for AI-Assisted Code Review: An Empirical Study [0.0]
哲学的な配置を通してAIレビュアーの行動を制限するシステムを提案する。
それぞれの分布は(それがすることを拒否して)好意的に定義される
5つのプログラミング言語にまたがる7つのレポジトリ間で50のプルリクエストをマージしたシステムの評価を行った。
論文 参考訳(メタデータ) (2026-05-21T23:57:25Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - The Range Shrinks, the Threat Remains: Re-evaluating LLM Package Hallucinations on the 2026 Frontier-Model Cohort [51.56484100374058]
Spracklenらは、コード生成された大きな言語モデルは、PyPIやnpmに存在しないパッケージ名を幻覚させることを示した。
199,845対のPythonとJavaScriptプロンプトの幻覚率を測定し、PyPIとnpmマスターリストに対して検証した。
127個のパッケージ名(PyPIは109個,npmは18個)を5つの評価モデルで同一に作成する。
論文 参考訳(メタデータ) (2026-05-16T16:08:52Z) - Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation [0.0]
テストモデルとEpoch AI能力指数の同時フロンティアを比較した。
これらの回答のギャップは、+5.53 ECI/年で拡大している。
提案されている改善には、APIアクセス助成金と報告フレームワークの編集執行が含まれる。
論文 参考訳(メタデータ) (2026-05-05T17:58:35Z) - When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors [66.18091962164219]
既存のメトリクスは、タスクの成功に必要な義務的な振る舞いと、モデルの自律的な嗜好を反映した命令的でないパターンを区別することができない。
言語アライメントのための textbfResponse Pattern similarity (RPS) と、有向グラフとしてモデル化されたツール使用習慣のための textbfAction Graph similarity (AGS) である。
論文 参考訳(メタデータ) (2026-04-23T03:48:56Z) - Nonstandard Errors in AI Agents [6.890249567932368]
我々は、現在最先端のAIコーディングエージェントが、同じデータと研究質問を与えられた場合、同じ経験的結果をもたらすかどうかを調査する。
我々は,AIエージェントが,分析選択におけるエージェント対エージェントのばらつきから不確実な,大きさのテクスチノンスタンダードエラー(NSE)を示すことを発見した。
これらの発見は、自動政策評価と実証研究におけるAIの利用の増加に影響を及ぼす。
論文 参考訳(メタデータ) (2026-03-17T16:21:22Z) - AI Transparency Atlas: Framework, Scoring, and Real-Time Model Card Evaluation Pipeline [2.1787849426740364]
我々は5つのフロンティアモデル(Gemini 3, Grok 4.1, Llama 4, GPT-5, Claude 4.5)と100台のHugging Faceモデルカードからドキュメントを分析した。
安全クリティカルな開示を優先する8つのセクションと23のサブセクションからなる重み付き透明性フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-13T19:48:44Z) - SpecEval: Evaluating Model Adherence to Behavior Specifications [63.13000010340958]
提供者仕様に対してモデルを監査する自動化フレームワークを導入します。
私たちの中心となる焦点は、プロバイダ仕様とモデルアウトプット、および審査員としての自身のモデルの間の3つの方法の整合性にあります。
当社のフレームワークは、100以上の行動ステートメントにわたる6人の開発者から16のモデルに適用し、プロバイダ間で最大20%のコンプライアンスギャップを含む、体系的な不整合を見つけました。
論文 参考訳(メタデータ) (2025-09-02T16:18:40Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。