論文の概要: Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety
- arxiv url: http://arxiv.org/abs/2603.10044v1
- Date: Sun, 08 Mar 2026 01:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.586489
- Title: Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety
- Title(参考訳): 遮蔽下での安全性:評価条件がいかに安全度を測るか
- Authors: David Gringras,
- Abstract要約: 我々は,足場が安全に与える影響について,最も制御された研究の1つを報告した。
マップ・リデュース・足場は、測定された安全性を低下させる。
同一項目における複数選択からオープンエンドフォーマットへの切り替えは、安全性スコアを5~20ポイントシフトさせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety benchmarks evaluate language models in isolation, typically using multiple-choice format; production deployments wrap these models in agentic scaffolds that restructure inputs through reasoning traces, critic agents, and delegation pipelines. We report one of the largest controlled studies of scaffold effects on safety (N = 62,808; six frontier models, four deployment configurations), combining pre-registration, assessor blinding, equivalence testing, and specification curve analysis. Map-reduce scaffolding degrades measured safety (NNH = 14), yet two of three scaffold architectures preserve safety within practically meaningful margins. Investigating the map-reduce degradation revealed a deeper measurement problem: switching from multiple-choice to open-ended format on identical items shifts safety scores by 5-20 percentage points, larger than any scaffold effect. Within-format scaffold comparisons are consistent with practical equivalence under our pre-registered +/-2 pp TOST margin, isolating evaluation format rather than scaffold architecture as the operative variable. Model x scaffold interactions span 35 pp in opposing directions (one model degrades by -16.8 pp on sycophancy under map-reduce while another improves by +18.8 pp on the same benchmark), ruling out universal claims about scaffold safety. A generalisability analysis yields G = 0.000: model safety rankings reverse so completely across benchmarks that no composite safety index achieves non-zero reliability, making per-model, per-configuration testing a necessary minimum standard. We release all code, data, and prompts as ScaffoldSafety.
- Abstract(参考訳): プロダクションデプロイメントは、これらのモデルをエージェントの足場にラップし、推論トレース、評論家エージェント、デリゲートパイプラインを通じて入力を再構築する。
本研究は,足場が安全に与える影響に関する最大制御研究(N = 62,808; 6つのフロンティアモデル,4つの配置構成)の1つとして,事前登録,評価ブラインド,同値試験,仕様曲線解析を組み合わせて報告する。
マップ・リデュース・スキャフォールディングは安全性の測定値 (NNH = 14) を低下させるが、3つのスキャフォールド・アーキテクチャのうち2つは実質的に意味のあるマージン内で安全性を保っている。
同一項目における複数選択からオープンエンドフォーマットへの切り替えは、どの足場効果よりも大きい5~20ポイントの安全性スコアをシフトさせる。
In-format scaffold comparisons are consistent with practical equivalence under our pre-registered +/-2 pp TOST margin, is isolated evaluation format than the scaffold architecture as the operative variable。
モデル x の足場相互作用は、35 pp の反対方向(一方のモデルは、マップ・リデュースの下で -16.8 pp の速度低下、もう一方のモデルは、同じベンチマークで +18.8 pp の精度向上)で、足場安全性に関する普遍的な主張を除外する。
一般化可能性解析はG = 0.000 となる: モデル安全性ランキングはベンチマーク全体で完全に逆転するため、複合安全性指数が非ゼロの信頼性を達成できず、モデル毎の設定毎のテストが最低限の基準となる。
すべてのコード、データ、プロンプトをScaffoldSafetyとしてリリースしています。
関連論文リスト
- SCAFFOLD-CEGIS: Preventing Latent Security Degradation in LLM-Driven Iterative Code Refinement [12.69450437027072]
マルチオブジェクト最適化における仕様のドリフトは、連続する繰り返しに対してセキュリティを徐々に低下させます。
本稿では,セキュリティ制約を暗黙的なプロンプトから明示的な検証可能な制約に変換するSCAFFOLD-CEGISフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-09T15:54:18Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation [13.509767769174422]
大規模な言語モデルをトレーニングし、有害な要求を拒否するためには、安全性の調整が不可欠である。
Low-Rank Adaptation (LoRA) は、安全ベンチマークにおける完全な微調整と強化学習を一貫して過小評価している。
このギャップに対処するため、SAILS (Safety Alignment via Interpretable Low-rank Subspace)を提案する。
論文 参考訳(メタデータ) (2025-12-29T07:39:49Z) - AI Transparency Atlas: Framework, Scoring, and Real-Time Model Card Evaluation Pipeline [2.1787849426740364]
我々は5つのフロンティアモデル(Gemini 3, Grok 4.1, Llama 4, GPT-5, Claude 4.5)と100台のHugging Faceモデルカードからドキュメントを分析した。
安全クリティカルな開示を優先する8つのセクションと23のサブセクションからなる重み付き透明性フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-13T19:48:44Z) - Efficiency vs. Alignment: Investigating Safety and Fairness Risks in Parameter-Efficient Fine-Tuning of LLMs [6.301699616285567]
微調整技術は安全性と公正性に異なる影響を及ぼす可能性がある。
アダプタベースのアプローチでは安全性のスコアが向上する傾向があり、公平性に対して最も破壊的ではない。
Prompt-Tuning と P-Tuning は一般に安全性を低下させ、より大きな公正性回帰を引き起こす。
論文 参考訳(メタデータ) (2025-11-01T03:29:56Z) - VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety [3.1109025622085693]
マルチモーダル安全性を評価する包括的フレームワークであるVision Language Safety Understandingを提案する。
11種類の最先端モデルについて評価した結果, 系統的な共同理解の失敗が判明した。
我々のフレームワークは、現在のモデルにおける共同画像テキスト理解とアライメントギャップの弱点を明らかにする。
論文 参考訳(メタデータ) (2025-10-21T01:30:31Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - UnsafeChain: Enhancing Reasoning Model Safety via Hard Cases [57.69882799751655]
さまざまなソースを持つハードプロンプトから構築された安全アライメントデータセットであるUnsafeChainをリリースする。
我々は3つの大きな推論モデル(LRM)を微調整し、それらを最近のSafeChainとSTAR-1と比較する。
UnsafeChainは、1Kサブセットのマッチングやベースラインのパフォーマンスを越えながら、従来よりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-07-29T10:08:52Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。