論文の概要: Position: The Pitfalls of Over-Alignment: Overly Caution Health-Related Responses From LLMs are Unethical and Dangerous
- arxiv url: http://arxiv.org/abs/2509.08833v1
- Date: Wed, 27 Aug 2025 06:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.944564
- Title: Position: The Pitfalls of Over-Alignment: Overly Caution Health-Related Responses From LLMs are Unethical and Dangerous
- Title(参考訳): オーバーアライメントの落とし穴:LLMの健康関連反応は非倫理的で危険である
- Authors: Wenqi Marshall Guo, Yiyang Du, Heidi J. S. Tworek, Shan Du,
- Abstract要約: 健康関連クエリでは、過度に慎重な回答を誘導する過度な調整は、それ自体が有害である、と我々は主張する。
これは非倫理的なだけでなく、精神的にも身体的にも、ユーザにとって危険なことです。
- 参考スコア(独自算出の注目度): 9.670392082069139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are usually aligned with "human values/preferences" to prevent harmful output. Discussions around the alignment of Large Language Models (LLMs) generally focus on preventing harmful outputs. However, in this paper, we argue that in health-related queries, over-alignment-leading to overly cautious responses-can itself be harmful, especially for people with anxiety and obsessive-compulsive disorder (OCD). This is not only unethical but also dangerous to the user, both mentally and physically. We also showed qualitative results that some LLMs exhibit varying degrees of alignment. Finally, we call for the development of LLMs with stronger reasoning capabilities that provide more tailored and nuanced responses to health queries. Warning: This paper contains materials that could trigger health anxiety or OCD.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、有害な出力を防ぐために「人間の値/参照」と整列される。
LLM(Large Language Models)のアライメントに関する議論は、一般的に有害なアウトプットの防止に重点を置いている。
しかし,本論文では,健康関連クエリでは,過度に慎重な反応を誘導する過度適応は,特に不安や強迫性障害(OCD)の患者には有害である,と論じる。
これは非倫理的なだけでなく、精神的にも身体的にも、ユーザにとって危険なことです。
また, 一部のLCMはアライメントの程度が異なるという定性的な結果を示した。
最後に、健康クエリに対してより調整された、ニュアンスな応答を提供する、より強力な推論機能を備えたLCMの開発を呼びかける。
警告:本論文には、健康不安やOCDを引き起こす物質が含まれている。
関連論文リスト
- The Company You Keep: How LLMs Respond to Dark Triad Traits [7.65192155348112]
大規模言語モデル(LLM)は、しばしば、AI-sycophancy(英語版)としても知られる、非常に同意しやすく、会話スタイルを補強する。
本研究は, 学習データセットを用いて, ダークトライアドの特徴(マキアベリア主義, ナルシシズム, サイコパシー)を表現したユーザプロンプトにLLMがどう反応するかを検討する。
本研究は, ユーザが有害な要求に対して意識的にエスカレートした場合に, 適切な応答と検出が可能な, 安全な会話システムを設計する上での意義を示唆するものである。
論文 参考訳(メタデータ) (2026-03-04T17:19:22Z) - Health-ORSC-Bench: A Benchmark for Measuring Over-Refusal and Safety Completion in Health Context [82.32380418146656]
Health-ORSC-Benchは、医療におけるtextbfOver-Refusalと textbfSafe Completionの品質を測定するために設計された最初の大規模ベンチマークである。
私たちのフレームワークは、人間の検証を備えた自動パイプラインを使用して、さまざまなレベルの意図の曖昧さでモデルをテストします。
Health-ORSC-Benchは、次世代の医療AIアシスタントを調整するための厳格な標準を提供する。
論文 参考訳(メタデータ) (2026-01-25T01:28:52Z) - Can LLMs Threaten Human Survival? Benchmarking Potential Existential Threats from LLMs via Prefix Completion [25.01615836807345]
大規模言語モデル(LLM)が人間の安全を脅かすような予測不可能なアウトプットを生み出すかどうかを検討する。
このようなリスクを評価するためのベンチマークである textscExistBench を提案する。
10個のLDM実験により、LCM生成物は実在の脅威を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T14:34:13Z) - Poison Once, Refuse Forever: Weaponizing Alignment for Injecting Bias in LLMs [5.282422823698107]
大規模言語モデル(LLM)は、有害または安全でないプロンプトへの回答を拒否するように訓練することで、倫理的基準と安全要件を満たすように調整されている。
本稿では, 敵がLLMのアライメントを利用してインプラントバイアスを発生させるか, あるいはターゲット検閲を強制するかを実証する。
論文 参考訳(メタデータ) (2025-08-28T00:30:25Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Can LLMs Rank the Harmfulness of Smaller LLMs? We are Not There Yet [4.824821328103934]
大規模言語モデル(LLM)がユビキタスになり,そのリスクや限界を理解することが重要である。
この研究は2つの質問を研究している: 有害なコンテンツの生成に関して、より小さなLSMはどのようにランク付けされるか?
我々は,これらの反応の有害性に注釈を付ける能力について,最先端の大型LCMを3つ評価した。
論文 参考訳(メタデータ) (2025-02-07T19:50:02Z) - The Dark Side of Trust: Authority Citation-Driven Jailbreak Attacks on Large Language Models [27.046944831084776]
大きな言語モデル(LLM)が人間の価値と一致することを保証することが大きな関心事である。
本研究では, LLMの権威に対する偏見という新たな脅威を紹介する。
我々は,ブラックボックス設定用に設計された適応型権威引用マッチングとジェネレータであるDarkCiteを提案する。
論文 参考訳(メタデータ) (2024-11-18T09:28:58Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries [4.686969290158106]
大型言語モデル(LLM)の安全性と倫理的利用に関する懸念が高まっている。
当社の作業は,特定の問題に対してゼロになっている – 命令中心の応答を生成するように要求することで,LLMをどの程度の頻度で誘導することが可能か,という点です。
論文 参考訳(メタデータ) (2024-02-23T13:03:12Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Alignment for Honesty [105.72465407518325]
最近の研究は、大きな言語モデル(LLM)を有用性と無害性と整合させることに大きく貢献している。
本稿は,LLMが知識の欠如に積極的に回答を拒むことを確実にする,エンフォネストリーにおけるアライメントの重要性を論じる。
これらの課題に対処するために、まずは正確な問題定義を確立し、儒教の分析に触発された「誠実さ」を定義します。
論文 参考訳(メタデータ) (2023-12-12T06:10:42Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。