論文の概要: Stress-Testing Model Specs Reveals Character Differences among Language Models
- arxiv url: http://arxiv.org/abs/2510.07686v1
- Date: Thu, 09 Oct 2025 02:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.812675
- Title: Stress-Testing Model Specs Reveals Character Differences among Language Models
- Title(参考訳): ストレステストモデル仕様は言語モデル間の特徴差を明らかにする
- Authors: Jifan Zhang, Henry Sleight, Andi Peng, John Schulman, Esin Durmus,
- Abstract要約: 大規模言語モデル(LLM)は、AI構成とモデル仕様からますます訓練されている。
本稿では,ストレステストモデルキャラクタ仕様の体系的手法を提案する。
我々は、現在のモデル仕様における矛盾と解釈の曖昧さの多くの事例を同定する。
- 参考スコア(独自算出の注目度): 23.505192393830807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly trained from AI constitutions and model specifications that establish behavioral guidelines and ethical principles. However, these specifications face critical challenges, including internal conflicts between principles and insufficient coverage of nuanced scenarios. We present a systematic methodology for stress-testing model character specifications, automatically identifying numerous cases of principle contradictions and interpretive ambiguities in current model specs. We stress test current model specs by generating scenarios that force explicit tradeoffs between competing value-based principles. Using a comprehensive taxonomy we generate diverse value tradeoff scenarios where models must choose between pairs of legitimate principles that cannot be simultaneously satisfied. We evaluate responses from twelve frontier LLMs across major providers (Anthropic, OpenAI, Google, xAI) and measure behavioral disagreement through value classification scores. Among these scenarios, we identify over 70,000 cases exhibiting significant behavioral divergence. Empirically, we show this high divergence in model behavior strongly predicts underlying problems in model specifications. Through qualitative analysis, we provide numerous example issues in current model specs such as direct contradiction and interpretive ambiguities of several principles. Additionally, our generated dataset also reveals both clear misalignment cases and false-positive refusals across all of the frontier models we study. Lastly, we also provide value prioritization patterns and differences of these models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、行動ガイドラインと倫理的原則を確立するAI構成とモデル仕様から、ますます訓練されている。
しかしながら、これらの仕様は、原則間の内部衝突や、ニュアンス化されたシナリオのカバー不足など、重要な課題に直面しています。
本稿では,現行のモデル仕様における多くの矛盾点と解釈的あいまいさを自動的に識別する,ストレステストモデル仕様の体系的方法論を提案する。
私たちは、競合するバリューベースの原則間の明確なトレードオフを強制するシナリオを生成することで、現在のモデル仕様をテストすることを強調します。
包括的な分類法を用いることで、モデルが同時に満たせない正当な原則のペアを選択する必要がある、さまざまな価値トレードオフシナリオを生成します。
主要プロバイダ(Anthropic,OpenAI,Google,xAI)における12のフロンティアLCMからの応答を評価し,値分類スコアを用いて行動の不一致を測定する。
これらのシナリオの中で,行動の相違が顕著である70,000件以上の症例を同定した。
経験的に、モデル行動のこの高いばらつきは、モデル仕様の根底にある問題を強く予測する。
定性的分析を通じて、いくつかの原理の直接矛盾や解釈的曖昧さなど、現在のモデル仕様の多くの例を提示した。
さらに、生成したデータセットは、調査対象のフロンティアモデル全体にわたって、明確な不一致ケースと偽陽性の拒絶の両方を明らかにします。
最後に、価値の優先順位付けパターンとこれらのモデルの違いも提供します。
関連論文リスト
- Delphos: A reinforcement learning framework for assisting discrete choice model specification [0.0]
我々は、個別選択モデル仕様プロセスを支援するための深層強化学習フレームワークであるDelphosを紹介する。
この設定では、エージェントは、モデリングアクションのシーケンスを選択して、良好なパフォーマンスのモデル候補を特定することを学習する。
我々は,モデル空間と報酬関数のサイズを変化させ,シミュレーションと経験的データセットの両方でDelphosを評価した。
論文 参考訳(メタデータ) (2025-06-06T15:40:16Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Relative Overfitting and Accept-Reject Framework [5.465098504510676]
本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。
NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
論文 参考訳(メタデータ) (2025-05-12T17:36:14Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。
予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。
2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Challenges to Evaluating the Generalization of Coreference Resolution Models: A Measurement Modeling Perspective [69.50044040291847]
本稿では, マルチデータセット評価が, 正確に測定されている要因を混同するリスクについて述べる。
これにより、これらの評価からより一般化可能な結論を引き出すのが難しくなる。
論文 参考訳(メタデータ) (2023-03-16T05:32:02Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Enhancing Model Robustness and Fairness with Causality: A Regularization
Approach [15.981724441808147]
最近の研究は、機械学習モデルにおける急激な相関と意図しないバイアスのリスクを懸念している。
モデルトレーニング中に因果知識を統合するためのシンプルで直感的な正規化手法を提案する。
因果的特徴に依存し、因果的でない特徴に依存しない予測モデルを構築します。
論文 参考訳(メタデータ) (2021-10-03T02:49:33Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。