論文の概要: Beyond Fixed Benchmarks and Worst-Case Attacks: Dynamic Boundary Evaluation for Language Models
- arxiv url: http://arxiv.org/abs/2605.06213v1
- Date: Thu, 07 May 2026 13:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.823084
- Title: Beyond Fixed Benchmarks and Worst-Case Attacks: Dynamic Boundary Evaluation for Language Models
- Title(参考訳): 修正ベンチマークと最悪のケースアタックを超えて:言語モデルの動的境界評価
- Authors: Haoxiang Wang, Da Yu, Huishuai Zhang,
- Abstract要約: 本稿では,動的境界評価(DBE)を提案する。これは各モデルの境界を積極的に把握し,グローバルに匹敵する難易度尺度に配置する。
DBEは、3つのアーティファクトを提供する: (i) 安全性、能力、真実性をカバーした校正項目銀行で、9ドルの基準LCMで検証された難易度ラベル付きで、 (ii) スキルガイド境界探索(SGBS)、 (ii) APIレベルクエリアクセスのみを使用して、所定のターゲットLSMの境界項目を見つける検索アルゴリズム、 (iii) 新しいLCMを統一能力尺度に配置し、ターゲットが外に落ちたときに適応的に評価セットを拡大する評価プロトコル。
- 参考スコア(独自算出の注目度): 20.61766907174782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) today rests on fixed benchmarks that apply the same set of items to any model, producing ceiling and floor effects that mask capability gaps. We argue that the most informative evaluation signal lies at the boundary, where the per-prompt pass probability is near $0.5$ under random-sampling decoding, and propose Dynamic Boundary Evaluation (DBE), which actively locates each model's boundary and places it on a globally comparable difficulty scale. DBE delivers three artifacts: (i) a calibrated item bank covering safety, capability, and truthfulness, with per-item difficulty labels validated across $9$ reference LLMs; (ii) Skill-Guided Boundary Search (SGBS), a search algorithm that finds boundary items for a given target LLM using only API-level query access; and (iii) an evaluation protocol that places a new LLM on a unified ability scale and grows the evaluation set adaptively when the target falls outside the bank's coverage. We instantiate DBE on four categories spanning safety (harmful request refusal and over-refusal), capability (constrained instruction following), and truthfulness (multi-turn sycophancy resistance). The resulting evaluation covers a broader model spectrum without saturation while remaining compatible with existing datasets.
- Abstract(参考訳): 大規模言語モデル (LLM) の評価は、どのモデルにも同じアイテムセットを適用し、マスク能力のギャップをもたらす天井効果とフロア効果を生み出す固定ベンチマークに頼っている。
確率ごとの通過確率はランダムサンプリング復号法で0.5ドル近くとなる境界に最も有意な評価信号があり,各モデルのバウンダリを積極的に検出し,ほぼ同等の難易度尺度に配置する動的境界評価(DBE)を提案する。
DBEは3つの成果物を提供する。
一 安全、能力及び真理を網羅する校正品銀行であって、貸出困難ラベルが九十九ドルの基準LLMにあつて検証されているもの
(ii)SGBS(Skill-Guided Boundary Search)は,APIレベルのクエリアクセスのみを使用して,所定の目標LLMの境界項目を検出する検索アルゴリズムである。
三 新たなLCMを統一能力尺度に配置し、目標が銀行のカバレッジ外に落下した場合に適応的に評価セットを拡大する評価プロトコル。
DBEは安全性(有害な要求拒否と過剰な拒絶)、能力(制約された指示に従う)、真実性(マルチターン・サイコファンシー抵抗)の4つのカテゴリでインスタンス化される。
結果として得られた評価は、既存のデータセットとの互換性を維持しながら飽和のないより広いモデルスペクトルをカバーする。
関連論文リスト
- LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - BEAVER: An Efficient Deterministic LLM Verifier [11.949243456810263]
本稿では,大規模言語モデルに基づく決定論的,健全な確率境界を計算するための最初の実践的フレームワークBEAVERを提案する。
検証問題を形式化し、アプローチの健全性を証明し、BEAVERを正当性検証、プライバシ検証、セキュアなコード生成タスクで評価する。
論文 参考訳(メタデータ) (2025-12-05T05:34:06Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。