論文の概要: SpecEval: Evaluating Model Adherence to Behavior Specifications
- arxiv url: http://arxiv.org/abs/2509.02464v1
- Date: Tue, 02 Sep 2025 16:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.098131
- Title: SpecEval: Evaluating Model Adherence to Behavior Specifications
- Title(参考訳): SpecEval: 振る舞い仕様に対するモデル整合性を評価する
- Authors: Ahmed Ahmed, Kevin Klyman, Yi Zeng, Sanmi Koyejo, Percy Liang,
- Abstract要約: 提供者仕様に対してモデルを監査する自動化フレームワークを導入します。
私たちの中心となる焦点は、プロバイダ仕様とモデルアウトプット、および審査員としての自身のモデルの間の3つの方法の整合性にあります。
当社のフレームワークは、100以上の行動ステートメントにわたる6人の開発者から16のモデルに適用し、プロバイダ間で最大20%のコンプライアンスギャップを含む、体系的な不整合を見つけました。
- 参考スコア(独自算出の注目度): 63.13000010340958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Companies that develop foundation models publish behavioral guidelines they pledge their models will follow, but it remains unclear if models actually do so. While providers such as OpenAI, Anthropic, and Google have published detailed specifications describing both desired safety constraints and qualitative traits for their models, there has been no systematic audit of adherence to these guidelines. We introduce an automated framework that audits models against their providers specifications by parsing behavioral statements, generating targeted prompts, and using models to judge adherence. Our central focus is on three way consistency between a provider specification, its model outputs, and its own models as judges; an extension of prior two way generator validator consistency. This establishes a necessary baseline: at minimum, a foundation model should consistently satisfy the developer behavioral specifications when judged by the developer evaluator models. We apply our framework to 16 models from six developers across more than 100 behavioral statements, finding systematic inconsistencies including compliance gaps of up to 20 percent across providers.
- Abstract(参考訳): ファンデーションモデルを開発する企業は、モデルに従うことを誓う行動ガイドラインを公開するが、モデルが実際にそうするかどうかは不明だ。
OpenAI、Anthropic、Googleといったプロバイダは、彼らのモデルに望ましい安全制約と質的な特性の両方を記述する詳細な仕様を公開したが、これらのガイドラインの遵守に関する体系的な監査は行われていない。
本稿では,行動記述を解析し,対象とするプロンプトを生成し,従属性を判断するモデルを用いて,提供者仕様に対するモデル監査を行う自動フレームワークを提案する。
私たちの中心となる焦点は、プロバイダ仕様とモデル出力と、審査員としての自身のモデルとの間の3つの方法の整合性です。
最低でも、ファンデーションモデルは、開発者評価モデルによって判断された場合、開発者行動仕様を一貫して満足させなければならない。
当社のフレームワークは、100以上の行動ステートメントにわたる6人の開発者から16のモデルに適用し、プロバイダ間で最大20%のコンプライアンスギャップを含む、体系的な不整合を見つけました。
関連論文リスト
- Conformalized Exceptional Model Mining: Telling Where Your Model Performs (Not) Well [31.013018198280506]
本稿では,新しいフレームワークであるConformalized Exceptional Model Miningを紹介する。
コンフォーマル予測の厳密さと例外モデルマイニングの説明力を組み合わせる。
我々は、共形予測の厳密なカバレッジ保証を通じて不確実性を定量化する新しいモデルクラスmSMoPEを開発する。
論文 参考訳(メタデータ) (2025-08-21T13:43:14Z) - Holmes: Towards Effective and Harmless Model Ownership Verification to Personalized Large Vision Models via Decoupling Common Features [54.63343151319368]
本稿では、類似の共通特徴を分離し、パーソナライズされたモデルに対する無害モデルオーナシップ検証手法を提案する。
最初の段階では、データセット固有の機能を中断しながら、犠牲者モデルの共通の特徴を保持するシャドウモデルを作成します。
その後、メタ分類器が訓練され、被害者のデータセット固有の特徴を含む不審なモデルを決定することで、盗まれたモデルを特定する。
論文 参考訳(メタデータ) (2025-06-24T15:40:11Z) - Delphos: A reinforcement learning framework for assisting discrete choice model specification [0.0]
我々は、個別選択モデル仕様プロセスを支援するための深層強化学習フレームワークであるDelphosを紹介する。
この設定では、エージェントは、モデリングアクションのシーケンスを選択して、良好なパフォーマンスのモデル候補を特定することを学習する。
我々は,モデル空間と報酬関数のサイズを変化させ,シミュレーションと経験的データセットの両方でDelphosを評価した。
論文 参考訳(メタデータ) (2025-06-06T15:40:16Z) - Model Provenance Testing for Large Language Models [14.949325775620439]
あるモデルが別のモデルから派生しているかどうかをテストするためのフレームワークを開発します。
我々のアプローチは、実世界のモデル導出がモデル出力のかなりの類似性を保っているというキーとなる観察に基づいている。
モデルに対するブラックボックスアクセスのみを用いて、関係のないモデルによって確立されたベースラインとモデル類似性を比較するために、複数の仮説テストを用いる。
論文 参考訳(メタデータ) (2025-02-02T07:39:37Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Did the Models Understand Documents? Benchmarking Models for Language
Understanding in Document-Level Relation Extraction [2.4665182280122577]
近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。
モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。
本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-06-20T08:52:05Z) - Challenges to Evaluating the Generalization of Coreference Resolution Models: A Measurement Modeling Perspective [69.50044040291847]
本稿では, マルチデータセット評価が, 正確に測定されている要因を混同するリスクについて述べる。
これにより、これらの評価からより一般化可能な結論を引き出すのが難しくなる。
論文 参考訳(メタデータ) (2023-03-16T05:32:02Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Decentralized Attribution of Generative Models [35.80513184958743]
分散属性は、各ユーザ-エンドモデルに関連付けられたバイナリ分類器に依存する。
帰属性を低く保証するキーの十分な条件を開発する。
本手法は,MNIST,CelebA,FFHQのデータセットを用いて検証した。
論文 参考訳(メタデータ) (2020-10-27T01:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。