論文の概要: ProMoral-Bench: Evaluating Prompting Strategies for Moral Reasoning and Safety in LLMs
- arxiv url: http://arxiv.org/abs/2602.13274v1
- Date: Thu, 05 Feb 2026 10:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.607197
- Title: ProMoral-Bench: Evaluating Prompting Strategies for Moral Reasoning and Safety in LLMs
- Title(参考訳): ProMoral-Bench:LLMにおけるモラル推論と安全性のためのプロンプティング戦略の評価
- Authors: Rohan Subramanian Thomas, Shikhar Shiromani, Abdullah Chaudhry, Ruizhe Li, Vasu Sharma, Kevin Zhu, Sunishchal Dev,
- Abstract要約: ProMoral-Benchは4つの大言語モデル(LLM)にまたがるパラダイムを促進する11のベンチマークである。
ETHICS、Scruples、WildJailbreak、および新しいロバストネステストETHICS-Contrastを用いて、提案した統一モラル安全スコア(UMSS)を用いて性能を測定する。
以上の結果から,コンパクトで先進的な足場は複雑な多段階推論よりも優れており,より高いUMSSスコアとより低いトークンコストでの堅牢性が得られることがわかった。
- 参考スコア(独自算出の注目度): 8.459191693233148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt design significantly impacts the moral competence and safety alignment of large language models (LLMs), yet empirical comparisons remain fragmented across datasets and models.We introduce ProMoral-Bench, a unified benchmark evaluating 11 prompting paradigms across four LLM families. Using ETHICS, Scruples, WildJailbreak, and our new robustness test, ETHICS-Contrast, we measure performance via our proposed Unified Moral Safety Score (UMSS), a metric balancing accuracy and safety. Our results show that compact, exemplar-guided scaffolds outperform complex multi-stage reasoning, providing higher UMSS scores and greater robustness at a lower token cost. While multi-turn reasoning proves fragile under perturbations, few-shot exemplars consistently enhance moral stability and jailbreak resistance. ProMoral-Bench establishes a standardized framework for principled, cost-effective prompt engineering.
- Abstract(参考訳): ProMoral-Benchは、4つのLLMファミリーで11のパラダイムを評価可能な統一ベンチマークである。
ETHICS, Scruples, WildJailbreak, そして新しいロバストネステストETHICS-Contrastを用いて, 精度と安全性のバランスをとる指標であるUMSS(Unified Moral Safety Score)を用いて性能を測定する。
以上の結果から,コンパクトで先進的な足場は複雑な多段階推論よりも優れており,より高いUMSSスコアとより低いトークンコストでの堅牢性が得られることがわかった。
マルチターン推論は摂動の際の脆弱さを証明しているが、少数の例では道徳的安定性と脱獄抵抗を一貫して強化している。
ProMoral-Benchは、原則的で費用効果の高いプロンプトエンジニアリングのための標準化されたフレームワークを確立する。
関連論文リスト
- Efficient LLM Safety Evaluation through Multi-Agent Debate [18.818180932660294]
本稿では, 批判者, 擁護者, 審査員間の構造化討論を通じて, 小型言語モデル(SLM)を用いた費用効率の高いマルチエージェント判定フレームワークを提案する。
安全判断を厳格に評価するために,大規模な人手によるジェイルブレイクベンチマークであるHAJailBenchを構築した。
本フレームワークは,推定コストを大幅に削減しつつ,HAJailBench上のGPT-4o判定値に匹敵する一致を実現している。
論文 参考訳(メタデータ) (2025-11-09T14:06:55Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。
この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。
本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文 参考訳(メタデータ) (2025-06-11T05:33:56Z) - Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [29.63418384788804]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文 参考訳(メタデータ) (2025-05-10T06:59:36Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
MoTE(Mixture of insightful Experts)は、推論チェーンとエキスパートミックスを組み合わせて自己調整を改善する新しいフレームワークである。
MoTEはモデルの安全性、脱獄耐性、過剰な拒否機能を大幅に改善し、OpenAIの最先端のo1モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。