論文の概要: ProSocialAlign: Preference Conditioned Test Time Alignment in Language Models
- arxiv url: http://arxiv.org/abs/2512.06515v1
- Date: Sat, 06 Dec 2025 18:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.390296
- Title: ProSocialAlign: Preference Conditioned Test Time Alignment in Language Models
- Title(参考訳): ProSocialAlign: 言語モデルにおける優先条件付きテスト時間アライメント
- Authors: Somnath Banerjee, Sayan Layek, Sayantan Adak, Mykola Pechenizkiy, Animesh Mukherjee, Rima Hazra,
- Abstract要約: 現在の言語モデルの安全性パラダイムは、感情的にチャージされたり、高レベルな設定で不足することが多い。
ProSocialAlignはテスト時間、パラメータ効率のよいフレームワークで、安全で共感的で、価値に整合した応答を生成できる。
- 参考スコア(独自算出の注目度): 24.690320002468862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current language model safety paradigms often fall short in emotionally charged or high-stakes settings, where refusal-only approaches may alienate users and naive compliance can amplify risk. We propose ProSocialAlign, a test-time, parameter-efficient framework that steers generation toward safe, empathetic, and value-aligned responses without retraining the base model. We formalize five human-centered objectives and cast safety as lexicographic constrained generation: first, applying hard constraints to eliminate harmful continuations; then optimizing for prosocial quality within the safe set. Our method combines (i) directional regulation, a harm-mitigation mechanism that subtracts a learned "harm vector" in parameter space, and (ii) preference-aware autoregressive reward modeling trained jointly across attributes with gradient conflict resolution, enabling fine-grained, user-controllable decoding. Empirical evaluations across five safety benchmarks demonstrate state-of-the-art performance, reducing unsafe leakage and boosting alignment to human values, with strong gains across multiple evaluation metrics. ProSocialAlign offers a robust and modular foundation for generating context-sensitive, safe, and human-aligned responses at inference time.
- Abstract(参考訳): 現在の言語モデルの安全性パラダイムは、しばしば感情的に充電されたり、高リスクな設定で不足する。
提案するProSocialAlignは,テスト時間でパラメータ効率のよいフレームワークで,ベースモデルを再学習することなく,安全で共感的で,価値に整合した応答を判断する。
まず、有害な継続を排除するために厳しい制約を適用し、次に安全セット内の社会的品質を最適化する。
我々の方法が組み合わさる
一 方向制御、パラメータ空間において学習した「ハームベクトル」を減算する調和緩和機構、及び
(II) 優先認識型自己回帰報酬モデルでは, 微粒でユーザ制御可能な復号化を実現するため, 勾配コンフリクトの解消を伴う属性間で協調的に訓練された。
5つの安全ベンチマークによる実証的な評価は、最先端のパフォーマンスを示し、安全でないリークを減らし、人的価値のアライメントを高める。
ProSocialAlignは、コンテキストに敏感で、安全で、ヒューマンアライメントなレスポンスを推論時に生成するための、堅牢でモジュール化された基盤を提供する。
関連論文リスト
- Certifiable Safe RLHF: Fixed-Penalty Constraint Optimization for Safer Language Models [7.422627253922975]
我々は,大規模コーパスでトレーニングされたコストモデルであるCertifiable Safe-RLHFを導入し,セマンティックグラウンドの安全性スコアを割り当てる。
適切にスケールされたペナルティにより、二重変数更新の必要性を排除し、安全制約の実現性を保証することができる。
経験的評価により、CS-RLHFは、名目や脱獄のプロンプトに対して、最先端のモデル応答よりも5倍効率が高いことが示されている。
論文 参考訳(メタデータ) (2025-10-03T21:24:41Z) - SafeBehavior: Simulating Human-Like Multistage Reasoning to Mitigate Jailbreak Attacks in Large Language Models [27.607151919652267]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで素晴らしいパフォーマンスを実現している。
しかし、彼らの成長力は、ビルトインの安全メカニズムを回避するジェイルブレイク攻撃のような潜在的なリスクを増幅する。
本研究では,ヒトの適応的多段階推論過程をシミュレートする新しい階層型ジェイルブレイク防御機構であるSafeBehaviorを提案する。
論文 参考訳(メタデータ) (2025-09-30T14:50:59Z) - Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check [32.82170313959032]
我々はAnswer-Then-Checkと呼ばれる新しい安全アライメント手法を導入する。
提案手法は,モデルが思考の質問に対して直接回答し,その安全性を批判的に評価することを可能にする。
わずか500のサンプルの小さなサブセットでのトレーニングは、完全なデータセットを使用するのに匹敵するパフォーマンスを達成できることに気付きました。
論文 参考訳(メタデータ) (2025-09-15T06:47:35Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。