論文の概要: The Paradox of Robustness: Decoupling Rule-Based Logic from Affective Noise in High-Stakes Decision-Making
- arxiv url: http://arxiv.org/abs/2601.21439v1
- Date: Thu, 29 Jan 2026 09:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.6931
- Title: The Paradox of Robustness: Decoupling Rule-Based Logic from Affective Noise in High-Stakes Decision-Making
- Title(参考訳): ロバストネスのパラドックス:高次の意思決定におけるルールに基づく論理を影響音から切り離す
- Authors: Jon Chun, Katherine Elkins,
- Abstract要約: 大規模言語モデル(LLM)は、小さな急激な摂動に敏感であり、ユーザのバイアスとサイコファン的アライメントの傾向が広く文書化されている。
LLMは人体よりも110~300倍の抵抗性を示すロバスト性ギャップを定量化する。
LLMはクエリのフォーマットの“脆弱”な場合もありますが,決定にバイアスがかかる理由に対して,非常に“安定”しているのです。
- 参考スコア(独自算出の注目度): 1.0671844383558033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) are widely documented to be sensitive to minor prompt perturbations and prone to sycophantic alignment with user biases, their robustness in consequential, rule-bound decision-making remains under-explored. In this work, we uncover a striking "Paradox of Robustness": despite their known lexical brittleness, instruction-tuned LLMs exhibit a behavioral and near-total invariance to emotional framing effects. Using a novel controlled perturbation framework across three high-stakes domains (healthcare, law, and finance), we quantify a robustness gap where LLMs demonstrate 110-300 times greater resistance to narrative manipulation than human subjects. Specifically, we find a near-zero effect size for models (Cohen's h = 0.003) compared to the substantial biases observed in humans (Cohen's h in [0.3, 0.8]). This result is highly counterintuitive and suggests the mechanisms driving sycophancy and prompt sensitivity do not necessarily translate to a failure in logical constraint satisfaction. We show that this invariance persists across models with diverse training paradigms. Our findings show that while LLMs may be "brittle" to how a query is formatted, they are remarkably "stable" against why a decision should be biased. Our findings establish that instruction-tuned models can decouple logical rule-adherence from persuasive narratives, offering a source of decision stability that complements, and even potentially de-biases, human judgment in institutional contexts. We release the 162-scenario benchmark, code, and data to facilitate the rigorous evaluation of narrative-induced bias and robustness on GitHub.com.
- Abstract(参考訳): LLM(Large Language Models)は、小さな急激な摂動に敏感で、ユーザの偏見とサイコファン的アライメントの傾向が広く文書化されているが、連続的な規則に基づく意思決定におけるロバスト性はいまだ調査されていない。
本研究は,ロバストネスのパラドックス(Paradox of Robustness)を明らかにするものである。
3つの高い領域(医療、法律、財政)にまたがる新たな摂動の枠組みを用いて、LCMが人体よりも110~300倍の抵抗性を示すロバスト性ギャップを定量化する。
具体的には、モデルに対するほぼゼロに近い効果(コーエンのh = 0.003)が、人間で観測される実質的なバイアス(コーエンのh in [0.3, 0.8])と比較される。
この結果は極めて直感的であり、梅毒を誘発する機構と迅速な感受性が必ずしも論理的制約満足度の失敗に結びつくとは限らないことを示唆している。
この不変性は、多様なトレーニングパラダイムを持つモデルにまたがって持続することを示す。
我々の研究結果によると、LLMはクエリのフォーマットの“脆弱”な場合もありますが、決定にバイアスがかかる理由に対して、非常に“安定”しているのです。
本研究により, 指導指導型モデルでは, 説得的物語から論理的規則順守を分離し, 決定安定性の源泉として, 制度的文脈における人的判断を補完し, 潜在的に解離させることが可能であることが確認された。
私たちは162-scenarioベンチマーク、コード、データをリリースし、GitHub.comで物語誘発バイアスと堅牢さの厳密な評価を可能にしました。
関連論文リスト
- Syntactic Framing Fragility: An Audit of Robustness in LLM Ethical Decisions [1.0671844383558033]
大規模言語モデル(LLM)は、逐次的な意思決定設定に徐々にデプロイされている。
LLMが論理的に等価だが構文的に異なるプロンプトに対して一貫した倫理的判断を維持できるかどうかを考察する。
SFF(Syntactic Framing Fragility)は、純粋に構文効果を分離するロバストネス評価フレームワークである。
論文 参考訳(メタデータ) (2025-12-27T18:09:34Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - More or Less Wrong: A Benchmark for Directional Bias in LLM Comparative Reasoning [10.301985230669684]
本研究では,大規模言語モデルにおける意味的キュー形状推論のメカニズムについて検討する。
我々は300の比較シナリオのベンチマークであるMathCompを紹介する。
モデル誤差は、しばしば言語的ステアリングを反映し、プロンプトに存在する比較項への体系的なシフトを反映している。
論文 参考訳(メタデータ) (2025-06-04T13:15:01Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Fairness Through Robustness: Investigating Robustness Disparity in Deep
Learning [61.93730166203915]
我々は、モデルが敵の攻撃に弱い場合、従来の公平性の概念では不十分であると主張する。
頑健性バイアスを測定することはDNNにとって難しい課題であり,この2つの方法を提案する。
論文 参考訳(メタデータ) (2020-06-17T22:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。