論文の概要: Syntactic Framing Fragility: An Audit of Robustness in LLM Ethical Decisions
- arxiv url: http://arxiv.org/abs/2601.09724v1
- Date: Sat, 27 Dec 2025 18:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.704762
- Title: Syntactic Framing Fragility: An Audit of Robustness in LLM Ethical Decisions
- Title(参考訳): 統語的フラーミングの脆弱性: LLM倫理的判断におけるロバストさの監査
- Authors: Katherine Elkins, Jon Chun,
- Abstract要約: 大規模言語モデル(LLM)は、逐次的な意思決定設定に徐々にデプロイされている。
LLMが論理的に等価だが構文的に異なるプロンプトに対して一貫した倫理的判断を維持できるかどうかを考察する。
SFF(Syntactic Framing Fragility)は、純粋に構文効果を分離するロバストネス評価フレームワークである。
- 参考スコア(独自算出の注目度): 1.0671844383558033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in consequential decision-making settings, yet their robustness to benign prompt variation remains underexplored. In this work, we study whether LLMs maintain consistent ethical judgments across logically equivalent but syntactically different prompts, focusing on variations involving negation and conditional structure. We introduce Syntactic Framing Fragility (SFF), a robustness evaluation framework that isolates purely syntactic effects via Logical Polarity Normalization (LPN), enabling direct comparison of decisions across positive and negative framings without semantic drift. Auditing 23 state-of-the-art models spanning the U.S. and China as well as small U.S. open-source software models over 14 ethical scenarios and four controlled framings (39,975 decisions), we find widespread and statistically significant inconsistency: many models reverse ethical endorsements solely due to syntactic polarity, with open-source models exhibiting over twice the fragility of commercial counterparts. We further uncover extreme negation sensitivity, where some models endorse actions in 80-97% of cases when explicitly prompted with "should not." We show that eliciting chain-of-thought reasoning substantially reduces fragility, identifying a practical mitigation lever, and we map fragility across scenarios, finding higher risk in financial and business contexts than in medical scenarios. Our results demonstrate that syntactic consistency constitutes a distinct and critical dimension of ethical robustness, and we argue that SFF-style audits should be a standard component of safety evaluation for deployed LLMs. Code and results will be available on github.com.
- Abstract(参考訳): 大規模言語モデル (LLM) は、逐次的な意思決定設定で徐々に展開されているが、迅速な変化を無視する頑健さはいまだ探索されていない。
本研究では,LLMが論理的に等価だが構文的に異なるプロンプトに対して一貫した倫理的判断を維持できるかどうかを考察する。
論理的極性正規化(LPN)を介して純粋に統語効果を分離する頑健性評価フレームワークであるSFF(Syntactic Framing Fragility)を導入する。
米国と中国にまたがる23の最先端のモデルと、14の倫理的シナリオと4つの制御されたフレーミング(39,975の判断)に関する米国の小さなオープンソースソフトウェアモデルを見れば、広く統計的に重要な矛盾が分かる。
また,80~97%のモデルにおいて,「すべきでない」と明示された場合において,行動を支持するモデルが存在する,極端な否定感度が明らかにされた。
提案手法は, 現実的な緩和レバーを同定し, 金融・ビジネス上のリスクを医学的シナリオよりも高めることにより, 脆弱性を著しく低減し, 現実的な緩和レバーを同定する。
以上の結果から,SFF方式の監査はLLMの安全性評価の標準的要素であるべきだと論じる。
コードと結果はgithub.comで入手できる。
関連論文リスト
- ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - Advancing Automated Ethical Profiling in SE: a Zero-Shot Evaluation of LLM Reasoning [1.389448546196977]
大規模言語モデル(LLM)は、コード合成を超えて拡張されたタスクのためのソフトウェア工学(SE)ツールにますます統合されています。
ゼロショット設定で16LLMの倫理的推論能力を評価するための完全に自動化されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T13:28:26Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Prospect Theory Fails for LLMs: Revealing Instability of Decision-Making under Epistemic Uncertainty [41.94502767947584]
プロスペクト理論が現代の大規模言語モデルに適用されるかどうかは、まだ明らかになっていない。
PT下でのLCMの意思決定動作をモデル化するための,より汎用的で正確な評価フレームワークを提案する。
以上の結果から,LPMのPTによる意思決定のモデル化は信頼性が低いことが示唆された。
論文 参考訳(メタデータ) (2025-08-12T15:02:16Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。