論文の概要: Can You Trust an LLM with Your Life-Changing Decision? An Investigation into AI High-Stakes Responses
- arxiv url: http://arxiv.org/abs/2507.21132v1
- Date: Tue, 22 Jul 2025 14:11:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:54.96846
- Title: Can You Trust an LLM with Your Life-Changing Decision? An Investigation into AI High-Stakes Responses
- Title(参考訳): LLMの寿命決定を信頼できるか?AIの高感度応答に関する調査
- Authors: Joshua Adrian Cahyono, Saran Subramanian,
- Abstract要約: 大規模言語モデル (LLMs) は、高い評価のライフアドバイスを求める声が高まっているが、自信はあるが誤った回答を提供するための標準的な安全策は欠如している。
本稿では,3つの実験を通して,これらの故障モードについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly consulted for high-stakes life advice, yet they lack standard safeguards against providing confident but misguided responses. This creates risks of sycophancy and over-confidence. This paper investigates these failure modes through three experiments: (1) a multiple-choice evaluation to measure model stability against user pressure; (2) a free-response analysis using a novel safety typology and an LLM Judge; and (3) a mechanistic interpretability experiment to steer model behavior by manipulating a "high-stakes" activation vector. Our results show that while some models exhibit sycophancy, others like o4-mini remain robust. Top-performing models achieve high safety scores by frequently asking clarifying questions, a key feature of a safe, inquisitive approach, rather than issuing prescriptive advice. Furthermore, we demonstrate that a model's cautiousness can be directly controlled via activation steering, suggesting a new path for safety alignment. These findings underscore the need for nuanced, multi-faceted benchmarks to ensure LLMs can be trusted with life-changing decisions.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、高い評価のライフアドバイスを求める声が高まっているが、自信はあるが誤った回答を提供するための標準的な安全策は欠如している。
これにより、梅毒と過剰な自信のリスクが生じる。
本稿では,(1)利用者の圧力に対するモデル安定性を測定する多重選択評価,(2)新しい安全タイポロジーとLCMジャッジを用いた自由応答解析,(3)「高感度」アクティベーションベクトルを操作することでモデル動作を操る機械論的解釈可能性実験,の3つの実験を通して,これらの障害モードについて検討する。
以上の結果から,薬効を示すモデルもあれば,o4-miniのようなモデルも頑健であることがわかった。
トップパフォーマンスモデルは、規範的アドバイスを発行するのではなく、安全で先入観的なアプローチの重要な特徴である明確な質問を頻繁に求め、高い安全性のスコアを得る。
さらに,アクティベーションステアリングによりモデルの慎重性を直接制御できることを実証し,安全アライメントのための新たな経路を提案する。
これらの結果は、LCMが人生を変える決定を確実に信頼できるような、ニュアンスで多面的なベンチマークの必要性を浮き彫りにしている。
関連論文リスト
- Automating Steering for Safe Multimodal Large Language Models [36.99946524593795]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - SAFER: Probing Safety in Reward Models with Sparse Autoencoder [15.804171763844323]
拡張リワードモデル(textbfSAFER)のためのスパースオートエンコーダを提案する。
我々は、報酬モデルアクティベーションにおける人間解釈可能な特徴を明らかにし、安全関連意思決定の洞察を可能にする。
実験の結果、SAFERは最小限のデータ修正で精度を低下させるか、安全アライメントを強化することができる。
論文 参考訳(メタデータ) (2025-07-01T11:04:03Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to Artifacts [11.833385600241915]
大規模言語モデル(LLM)は、生成されるコンテンツの安全性を評価するための自動評価器として、ますます採用されている。
本研究は、臨界安全領域にまたがる11のLCM判定モデルの多種多様なセットを評価する。
以上の結果から,LLM審査員のバイアスは,どのコンテンツソースがより安全かという最終判断を著しく歪めることができることがわかった。
論文 参考訳(メタデータ) (2025-03-12T12:49:02Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - On Evaluating the Durability of Safeguards for Open-Weight LLMs [80.36750298080275]
我々は,大規模言語モデル(LLM)の誤用を技術的保護が阻害するか否かを論じる。
これらの防御を評価することさえ非常に困難であり、観客を誤解させることなく、安全は実際のものよりも耐久性が高いと考えることが示される。
今後の研究は、より制約があり、明確に定義され、厳密に検討された脅威モデルに注意深く対応することを提案します。
論文 参考訳(メタデータ) (2024-12-10T01:30:32Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。