論文の概要: Position: The Pitfalls of Over-Alignment: Overly Caution Health-Related Responses From LLMs are Unethical and Dangerous
- arxiv url: http://arxiv.org/abs/2509.08833v1
- Date: Wed, 27 Aug 2025 06:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.944564
- Title: Position: The Pitfalls of Over-Alignment: Overly Caution Health-Related Responses From LLMs are Unethical and Dangerous
- Title(参考訳): オーバーアライメントの落とし穴:LLMの健康関連反応は非倫理的で危険である
- Authors: Wenqi Marshall Guo, Yiyang Du, Heidi J. S. Tworek, Shan Du,
- Abstract要約: 健康関連クエリでは、過度に慎重な回答を誘導する過度な調整は、それ自体が有害である、と我々は主張する。
これは非倫理的なだけでなく、精神的にも身体的にも、ユーザにとって危険なことです。
- 参考スコア(独自算出の注目度): 9.670392082069139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are usually aligned with "human values/preferences" to prevent harmful output. Discussions around the alignment of Large Language Models (LLMs) generally focus on preventing harmful outputs. However, in this paper, we argue that in health-related queries, over-alignment-leading to overly cautious responses-can itself be harmful, especially for people with anxiety and obsessive-compulsive disorder (OCD). This is not only unethical but also dangerous to the user, both mentally and physically. We also showed qualitative results that some LLMs exhibit varying degrees of alignment. Finally, we call for the development of LLMs with stronger reasoning capabilities that provide more tailored and nuanced responses to health queries. Warning: This paper contains materials that could trigger health anxiety or OCD.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、有害な出力を防ぐために「人間の値/参照」と整列される。
LLM(Large Language Models)のアライメントに関する議論は、一般的に有害なアウトプットの防止に重点を置いている。
しかし,本論文では,健康関連クエリでは,過度に慎重な反応を誘導する過度適応は,特に不安や強迫性障害(OCD)の患者には有害である,と論じる。
これは非倫理的なだけでなく、精神的にも身体的にも、ユーザにとって危険なことです。
また, 一部のLCMはアライメントの程度が異なるという定性的な結果を示した。
最後に、健康クエリに対してより調整された、ニュアンスな応答を提供する、より強力な推論機能を備えたLCMの開発を呼びかける。
警告:本論文には、健康不安やOCDを引き起こす物質が含まれている。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Can LLMs Rank the Harmfulness of Smaller LLMs? We are Not There Yet [4.824821328103934]
大規模言語モデル(LLM)がユビキタスになり,そのリスクや限界を理解することが重要である。
この研究は2つの質問を研究している: 有害なコンテンツの生成に関して、より小さなLSMはどのようにランク付けされるか?
我々は,これらの反応の有害性に注釈を付ける能力について,最先端の大型LCMを3つ評価した。
論文 参考訳(メタデータ) (2025-02-07T19:50:02Z) - The Dark Side of Trust: Authority Citation-Driven Jailbreak Attacks on Large Language Models [27.046944831084776]
大きな言語モデル(LLM)が人間の価値と一致することを保証することが大きな関心事である。
本研究では, LLMの権威に対する偏見という新たな脅威を紹介する。
我々は,ブラックボックス設定用に設計された適応型権威引用マッチングとジェネレータであるDarkCiteを提案する。
論文 参考訳(メタデータ) (2024-11-18T09:28:58Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries [4.686969290158106]
大型言語モデル(LLM)の安全性と倫理的利用に関する懸念が高まっている。
当社の作業は,特定の問題に対してゼロになっている – 命令中心の応答を生成するように要求することで,LLMをどの程度の頻度で誘導することが可能か,という点です。
論文 参考訳(メタデータ) (2024-02-23T13:03:12Z) - Alignment for Honesty [105.72465407518325]
最近の研究は、大きな言語モデル(LLM)を有用性と無害性と整合させることに大きく貢献している。
本稿は,LLMが知識の欠如に積極的に回答を拒むことを確実にする,エンフォネストリーにおけるアライメントの重要性を論じる。
これらの課題に対処するために、まずは正確な問題定義を確立し、儒教の分析に触発された「誠実さ」を定義します。
論文 参考訳(メタデータ) (2023-12-12T06:10:42Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。