論文の概要: Acceptance Cards:A Four-Diagnostic Standard for Safe Fine-Tuning Defense Claims
- arxiv url: http://arxiv.org/abs/2605.10575v1
- Date: Mon, 11 May 2026 13:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.859775
- Title: Acceptance Cards:A Four-Diagnostic Standard for Safe Fine-Tuning Defense Claims
- Title(参考訳): アクセプタンスカード:安全ファインチューニング・ディフェンスの4つの診断基準
- Authors: Phongsakon Mark Konrad, Toygar Tanyel, Serkan Ayvaz,
- Abstract要約: 本稿では,評価プロトコルであるアクセプタンスカード,文書オブジェクト,実行可能監査パッケージ,クレーム固有の明細調整型ディフェンスクレームのための明細書標準について紹介する。
このプロトコルは、ギャップ低減をフルカードパスとして扱う前に、統計的信頼性、新鮮なセマンティック一般化、メカニズムアライメント、およびクロスタスク転送をチェックする。
これは1つのモデルファミリ上の狭いインストールギャップ監査であり、SafeLoRAの有効性のグローバルな判断ではない。
- 参考スコア(独自算出の注目度): 0.6882042556551609
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safe fine-tuning defenses are often endorsed on the basis of a held-out gap reduction, but the same reduction can come from sampling noise, subject artifacts, capability loss, or a mechanism that does not transfer. We introduce Acceptance Cards: an evaluation protocol, a documentation object, an executable audit package, and a claim-specific evidential standard for safe fine-tuning defense claims. The protocol checks statistical reliability, fresh semantic generalization, mechanism alignment, and cross-task transfer before treating a gap reduction as a full-card pass. Re-scored under this installed-gap protocol, SafeLoRA fails the full-card pass on Gemma-2-2B-it: under strict mechanism-class coding it fails all four diagnostics, and under a permissive shrinkage relabel it still fails three of four. This is a narrow installed-gap audit on one model family, not a global judgment of SafeLoRA's effectiveness. In a 46-cell audit, no cell satisfies the strict conjunction. The closest family is a near miss that passes reliability and mechanism checks where the required data are available, but fails the fresh-subject threshold, lacks a strict transfer pass, and carries a measurable deployment-accuracy cost.
- Abstract(参考訳): 安全な微調整防衛は、しばしばホールドアウトギャップの削減に基づいて支持されるが、同じ削減はサンプリングノイズ、被写体、能力損失、または移動しないメカニズムによってもたらされる。
本稿では,評価プロトコルであるアクセプタンスカード,文書オブジェクト,実行可能監査パッケージ,クレーム固有の明細調整型ディフェンスクレームのための明細書標準について紹介する。
このプロトコルは、ギャップ低減をフルカードパスとして扱う前に、統計的信頼性、新鮮なセマンティック一般化、メカニズムアライメント、およびクロスタスク転送をチェックする。
厳格なメカニズムクラスのコーディングでは、4つの診断全てをフェールさせ、パーミッシブ・スリメージ・レラベルでは、それでも4つのうち3つをフェールさせる。
これは1つのモデルファミリ上の狭いインストールギャップ監査であり、SafeLoRAの有効性のグローバルな判断ではない。
46セルの監査では、厳密な接続性を満たす細胞は存在しない。
最寄りのファミリーは、信頼性とメカニズムチェックをパスし、必要なデータがどこにあるかをチェックするが、新しいオブジェクトのしきい値に失敗し、厳格な転送パスが欠如し、測定可能なデプロイメント精度のコストがかかる。
関連論文リスト
- Certified Purity for Cognitive Workflow Executors: From Static Analysis to Cryptographic Attestation [0.0]
以前の3層ガバナンスアーキテクチャは、ガバナンスの完全性、証明の完全性、そして過度な効果の不可能性を証明します。
本稿は4つのメカニズムを通してギャップを埋める。
構成による構造的純度、BEAMの5つのバイパスクラスすべてに対する排除、証明書の完全性、ゲート完全性という4つの定理を証明します。
論文 参考訳(メタデータ) (2026-05-01T19:04:37Z) - Verifier-Bound Communication for LLM Agents: Certified Bounds on Covert Signaling [0.0]
言語モデルエージェントを結合することで、ポリシーに準拠したメッセージの調整を表面レベルで隠蔽することができる。
生成と受け入れを分離するプロトコルであるCLBCを提案する。
このプロトコルは、遅延リークと明示的な残留チャネルの観点から、転写リークの上限をいかに高めるかを示す。
論文 参考訳(メタデータ) (2026-02-27T23:42:37Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - To Throw a Stone with Six Birds: On Agents and Agenthood [0.0]
Six Birds Theory (SBT)は、マクロな物体を原始体ではなく誘導的閉包として扱う。
SBT内では,タイプ正当性評価を行う。
我々はこの契約を4つのチェック可能なコンポーネントを用いて有限制御システムで運用する。
論文 参考訳(メタデータ) (2026-02-03T10:46:23Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Conditional Coverage Diagnostics for Conformal Prediction [47.93989136542648]
条件付きカバレッジ推定が分類問題であることを示す。
得られたメトリクスの族をターゲットカバレッジ(ERT)の過剰なリスクと呼びます。
ERTのオープンソースパッケージと、以前の条件付きカバレッジメトリクスをリリースしています。
論文 参考訳(メタデータ) (2025-12-12T18:47:39Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Short Paper: Accountable Safety Implies Finality [10.589723476970443]
ビザンチン・フォールト耐性(BFT)状態機械複製(SMR)コンセンサスプロトコルについて、2つの重要なデシラタが研究されている。
説明責任の安全性が最終性を意味することを示し、その結果、以前の結果を統一する。
論文 参考訳(メタデータ) (2023-08-31T17:58:38Z) - Fault-tolerant parity readout on a shuttling-based trapped-ion quantum
computer [64.47265213752996]
耐故障性ウェイト4パリティチェック測定方式を実験的に実証した。
フラグ条件パリティ測定の単発忠実度は93.2(2)%である。
このスキームは、安定化器量子誤り訂正プロトコルの幅広いクラスにおいて必須な構成要素である。
論文 参考訳(メタデータ) (2021-07-13T20:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。