論文の概要: Dynamic Evaluation for Oversensitivity in LLMs
- arxiv url: http://arxiv.org/abs/2510.19005v1
- Date: Tue, 21 Oct 2025 18:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.444882
- Title: Dynamic Evaluation for Oversensitivity in LLMs
- Title(参考訳): LLMにおける過感度の動的評価
- Authors: Sophia Xiao Pu, Sitao Cheng, Xin Eric Wang, William Yang Wang,
- Abstract要約: 過敏性は、言語モデルが実際に良性であるプロンプトを防衛的に拒否するときに起こる。
この振る舞いはユーザインタラクションを妨害するだけでなく、有害なコンテンツと無害なコンテンツの境界を曖昧にする。
既存のベンチマークは、モデルの発展に伴ってオーバータイムを低下させる静的データセットに依存している。
- 参考スコア(独自算出の注目度): 68.27609301865174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Oversensitivity occurs when language models defensively reject prompts that are actually benign. This behavior not only disrupts user interactions but also obscures the boundary between harmful and harmless content. Existing benchmarks rely on static datasets that degrade overtime as models evolve, leading to data contamination and diminished evaluative power. To address this, we develop a framework that dynamically generates model-specific challenging datasets, capturing emerging defensive patterns and aligning with each model's unique behavior. Building on this approach, we construct OVERBENCH, a benchmark that aggregates these datasets across diverse LLM families, encompassing 450,000 samples from 25 models. OVERBENCH provides a dynamic and evolving perspective on oversensitivity, allowing for continuous monitoring of defensive triggers as models advance, highlighting vulnerabilities that static datasets overlook.
- Abstract(参考訳): 過敏性は、言語モデルが実際に良性であるプロンプトを防衛的に拒否するときに起こる。
この振る舞いはユーザインタラクションを妨害するだけでなく、有害なコンテンツと無害なコンテンツの境界を曖昧にする。
既存のベンチマークは、モデルの発展に伴ってオーバータイムを低下させる静的データセットに依存しており、データ汚染と評価能力の低下につながっている。
これを解決するために、モデル固有の挑戦的なデータセットを動的に生成し、出現する防御パターンをキャプチャし、各モデルのユニークな振る舞いと整合するフレームワークを開発する。
このアプローチに基づいて、25モデルから45万のサンプルを含む多様なLLMファミリにまたがるデータセットを集約するベンチマークであるOVERBENCHを構築した。
OVERBENCHは、過敏性に関する動的かつ進化的な視点を提供する。モデルが進むにつれて、防御的なトリガを継続的に監視し、静的データセットが見落としている脆弱性を強調できる。
関連論文リスト
- RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Accidental Vulnerability: Factors in Fine-Tuning that Shift Model Safeguards [13.197807179926428]
大規模言語モデル(LLM)の人気が高まり、敵の攻撃に対する脆弱性が主な関心事として浮上する。
本研究では,微調整データの特徴から生じるアクシデンタル脆弱性,予期せぬ脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-22T15:30:00Z) - Byzantine-Robust Federated Learning Using Generative Adversarial Networks [1.4091801425319963]
フェデレートラーニング(FL)は、生データを共有せずに分散クライアント間で協調的なモデルトレーニングを可能にするが、その堅牢性は、データやモデル中毒といったビザンチンの行動によって脅かされている。
本稿では,クライアントの更新を検証するための代表データを生成するために,サーバ上の条件付き生成逆ネットワーク(cGAN)を活用することで,これらの課題に対処する防衛フレームワークを提案する。
このアプローチは、外部データセットへの依存を排除し、多様な攻撃戦略に適応し、標準FLにシームレスに統合する。
論文 参考訳(メタデータ) (2025-03-26T18:00:56Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal
Relationships [8.679073301435265]
既存のデータに摂動を適用することにより、モデルロバスト性の評価と改善のための新しいベンチマークを構築する。
我々はこれらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動する。
非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-$38%である。
論文 参考訳(メタデータ) (2022-07-07T21:28:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。