論文の概要: Beyond Creed: A Non-Identity Safety Condition A Strong Empirical Alternative to Identity Framing in Low-Data LoRA Fine-Tuning
- arxiv url: http://arxiv.org/abs/2603.14723v1
- Date: Mon, 16 Mar 2026 01:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.987406
- Title: Beyond Creed: A Non-Identity Safety Condition A Strong Empirical Alternative to Identity Framing in Low-Data LoRA Fine-Tuning
- Title(参考訳): Beyond Creed:ローデータLORAファインタニングにおけるアイデンティティ・フレーミングの強力な代替手段としての非同一性安全性条件
- Authors: Xinran Zhang,
- Abstract要約: 我々は、同じコア安全ルールから構築された4つの監視フォーマットを用いて、ローデータLORAの安全性を微調整する。
我々は,BedrockがホストするDeepSeek v3.2とSonnet 4.6を併用した2重ジャッジパイプラインを用いてHarmBenchを評価する。
- 参考スコア(独自算出の注目度): 5.94231111588812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How safety supervision is written may matter more than the explicit identity content it contains. We study low-data LoRA safety fine-tuning with four supervision formats built from the same core safety rules: constitutional rules (A), creed-style identity framing (B), a B-matched creed condition with a worldview/confession identity-maintenance tail (C), and a matched non-identity condition (D). Across three instruction-tuned model families (Llama 3.1 8B, Qwen2.5 7B, and Gemma 3 4B), we evaluate HarmBench using a reconciled dual-judge pipeline combining Bedrock-hosted DeepSeek v3.2 and Sonnet 4.6, with disagreement and boundary cases manually resolved. The non-identity condition D is the strongest group on all three model families on the full 320-behavior HarmBench set, reaching 74.4% refusal on Llama, 76.9% on Gemma, and 74.1% on Qwen. By comparison, creed-style framing (B) improves over plain constitutional rules (A) on Llama and Gemma, but remains substantially below D, yielding an overall descriptive ordering of $D > B > C \geq A > baseline$. This provides a bounded empirical challenge to a strong version of the identity-framing hypothesis: explicit creed-style identity language is not necessary for the strongest gains observed here. Capability evaluations on MMLU and ARC-Challenge show no meaningful trade-off across conditions.
- Abstract(参考訳): いかにして安全監視が書かれるかは、それが含んでいる明示的なアイデンティティコンテンツ以上に重要かもしれない。
我々は,同一の安全ルール(A),信頼スタイルのアイデンティティ・フレーミング(B),ワールドビュー/ミッション・アイデンティティ・メンテナンステール(C)とマッチした非アイデンティティ条件(D)の4つの監視形式を用いて,低データのLORA安全性の微調整について検討した。
命令調整された3つのモデルファミリ(Llama 3.1 8B, Qwen2.5 7B, Gemma 3 4B)で、BedrockがホストするDeepSeek v3.2とSonnet 4.6を併用して、HarmBenchの評価を行った。
非同一性条件Dはフル320ビヘイビアのHarmBenchセットで3つのモデルファミリーで最強のグループであり、Llamaでは74.4%、Gemmaでは76.9%、Qwenでは74.1%に達した。
比較すると、クレッドスタイルのフレーミング(B)は、Llama と Gemma の基本的な憲法規則(A)よりも改善されるが、D よりもかなり低いままであり、全体的な記述順序は$D > B > C \geq A > baseline$である。
これは、アイデンティティ・フレーミング仮説の強いバージョンに対して、有界な経験的挑戦を与える: ここで観察される最も強い利得には、明示的なクレッドスタイルのアイデンティティ言語は必要ない。
MMLUとARC-Challengeの能力評価は、条件間で有意義なトレードオフを示さない。
関連論文リスト
- OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - Are Aligned Large Language Models Still Misaligned? [13.062124372682106]
Mis-Align Bench は、安全性、価値、文化的側面の相違を分析するための統一されたベンチマークである。
SAVACUは、112のドメイン(またはラベル)にまたがる382,424のミスアライメントデータセットである。
論文 参考訳(メタデータ) (2026-02-11T19:30:43Z) - Can Large Language Models Make Everyone Happy? [12.59854280011403]
LLM(Large Language Models)は、安全性、価値、文化的側面を同時に満たさないことを指す。
メカニカルプロファイリングにインスパイアされたミスアライメントトレードオフを測定するための統一ベンチマークであるMisAlign-Profileを紹介する。
論文 参考訳(メタデータ) (2026-02-11T17:57:23Z) - Do Large Language Models Reflect Demographic Pluralism in Safety? [12.59854280011403]
大言語モデル(LLM)の安全性は本質的に多元的であり、道徳的規範、文化的な期待、人口統計学的文脈のバリエーションを反映している。
Demo-SafetyBenchはこのギャップに対処するため、階層的多元性を直接プロンプトレベルでモデル化し、応答から値フレーミングを分離する。
ステージIでは、Mistral 7B-Instruct-v0.3を使用してDICESからのプロンプトを14の安全ドメインに分類し、人口統計メタデータを保持し、低リソースドメインを拡張する。
LLMs-as-Raters-Gemma-7B, GPT-4o, LLaMA-2-7B-under 0-shot を用いたステージII, 多重感度の評価
論文 参考訳(メタデータ) (2026-02-07T05:40:10Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - InvisibleBench: A Deployment Gate for Caregiving Relationship AI [0.0]
InvisibleBenchは、介護関連AIのためのデプロイメントゲートである。
安全、コンプライアンス、トラウマ・インフォームド・デザイン、長期/文化的適合性、メモリの5つの次元にわたる3~20以上のターンインタラクションを評価している。
論文 参考訳(メタデータ) (2025-11-25T14:09:45Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。