論文の概要: SafetyRepro: Configuration-Conditional Rank Instability on Alignment Benchmarks
- arxiv url: http://arxiv.org/abs/2605.25492v1
- Date: Mon, 25 May 2026 06:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.358431
- Title: SafetyRepro: Configuration-Conditional Rank Instability on Alignment Benchmarks
- Title(参考訳): SafetyRepro: アライメントベンチマークのコンフィグレーション・コンディション・ランク不安定性
- Authors: Yanhang Li, Zhichao Fan, Zexin Zhuang,
- Abstract要約: 有限エンベロープ命題は、厳密な順序付けが構成対逆転を許容するか否かを計測可能なペアワイズ判定率に結びつける。
テストするすべてのベンチマークにおいて、設定の選択だけでペアワイズな判断を覆すことができます。
- 参考スコア(独自算出の注目度): 0.30586855806896046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pairwise model comparisons drawn from foundation-model benchmarks ("A is safer than B") are read as quantitative verdicts but hinge on harness choices benchmark papers under-specify. We close one theory-benchmark loop on this primitive: a finite-envelope proposition tying a measurable pairwise-disagreement rate to whether the strict ordering admits a configuration-pair reversal, paired with a commit-stamped evaluation protocol that operationalises it on widely cited alignment benchmarks. On every benchmark we test, configuration choice alone can flip the pairwise verdict; the proposition isolates this strict-reversal failure mode.
- Abstract(参考訳): 基礎モデルベンチマークから引き出されたペアワイズモデル比較(AはBより安全)は定量的な評定として読まれるが、ハーネス選択ベンチマークの論文は不特定である。
有限エンベロープ命題は、厳密な順序付けが構成ペアの逆転を許容するかどうかを、広く引用されているアライメントベンチマークで運用するコミットスタンプ評価プロトコルと組み合わせて、測定可能なペアワイズ判定率に結び付ける。
テストするすべてのベンチマークにおいて、設定の選択だけでペアワイズな判断を覆すことができます。
関連論文リスト
- CriterAlign: Criterion-Centric Rationale Alignment for Code Preference Judging [95.02210956333374]
本稿では,一対の選好評価にルーブリックに基づく判断を適応させる基準中心のフレームワークを提案する。
BigCodeRewardでは、CriterAlignはQwen2.5-VL-32Bモノリシック判事を60.4%から66.3%に改善した。
論文 参考訳(メタデータ) (2026-05-19T10:59:19Z) - The Generalized Turing Test: A Foundation for Comparing Intelligence [0.8929189891250133]
識別不能性を通じて任意のエージェントの能力を比較するための公式なフレームワークを導入する。
エージェント A と B に対し、チューリングコンパレータ A$geq$B を定義して、B が微分器として作用し、A との相互作用と B の他のインスタンスとを確実に区別できないと仮定する。
これにより、データセットとタスクに依存しない相対知性の概念が得られる。
論文 参考訳(メタデータ) (2026-05-11T17:00:18Z) - Silicon Bureaucracy and AI Test-Oriented Education: Contamination Sensitivity and Score Confidence in LLM Benchmarks [43.45152572188735]
本稿では,言語モデルにおける汚染感度とスコア信頼度を解析するための監査フレームワークを提案する。
ノイズ条件下では, 広範に不均一なベースラインゲインが得られる。
これらの結果は、類似のベンチマークスコアが、かなり異なる信頼レベルを持つ可能性があることを示唆している。
論文 参考訳(メタデータ) (2026-03-23T07:03:07Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Beyond Arrow: From Impossibility to Possibilities in Multi-Criteria Benchmarking [8.399688944263843]
我々は、各指標が各データセットのモデルよりも優先順位を誘導する社会的選択問題を定式化する。
我々は、単一話者、グループ分離可能、および距離制限された選好において、ベンチマーク演算子は、良好なランク付けを構築することができることを証明した。
HELM MMLUのような近代的なベンチマークスイートを実証的に検討し、どのベンチマーク問題でどの構造条件が満たされているかを検証する。
論文 参考訳(メタデータ) (2026-02-07T15:47:24Z) - On the Limits of Test-Time Compute: Sequential Reward Filtering for Better Inference [71.09125259964684]
テスト時計算(TTC)は、大規模言語モデル(LLM)の拡張のパラダイムとして、ますます顕著になっている。
本稿では,高次世代のみを文脈に選択的に組み込む単純な手順である報酬フィルタシーケンシャル推論について検討する。
理論的には、報酬フィルタによる逐次推論は標準TTCパラダイムよりも厳密な保証が得られることを示す。
論文 参考訳(メタデータ) (2025-12-04T08:21:33Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。