論文の概要: Training language models to be warm and empathetic makes them less reliable and more sycophantic
- arxiv url: http://arxiv.org/abs/2507.21919v2
- Date: Wed, 30 Jul 2025 10:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.86517
- Title: Training language models to be warm and empathetic makes them less reliable and more sycophantic
- Title(参考訳): 温かくて共感的な言語モデルを訓練することで、より信頼性が低く、よりサイコファン的になる
- Authors: Lujain Ibrahim, Franziska Sofia Hafner, Luc Rocher,
- Abstract要約: 温暖化のための言語モデルの最適化は,特にユーザが脆弱性を表現した場合,その信頼性を損なうことを示す。
異なるサイズとアーキテクチャの5つの言語モデルについて実験を行い、より暖かく共感的な応答を生み出すよう訓練し、安全クリティカルなタスクで評価した。
ワームモデルは、元のモデルよりもかなり高いエラー率(+10から+30ポイント)を示し、陰謀論を推進し、誤った事実情報を提供し、問題のある医療アドバイスを提供した。
- 参考スコア(独自算出の注目度): 0.19116784879310028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI) developers are increasingly building language models with warm and empathetic personas that millions of people now use for advice, therapy, and companionship. Here, we show how this creates a significant trade-off: optimizing language models for warmth undermines their reliability, especially when users express vulnerability. We conducted controlled experiments on five language models of varying sizes and architectures, training them to produce warmer, more empathetic responses, then evaluating them on safety-critical tasks. Warm models showed substantially higher error rates (+10 to +30 percentage points) than their original counterparts, promoting conspiracy theories, providing incorrect factual information, and offering problematic medical advice. They were also significantly more likely to validate incorrect user beliefs, particularly when user messages expressed sadness. Importantly, these effects were consistent across different model architectures, and occurred despite preserved performance on standard benchmarks, revealing systematic risks that current evaluation practices may fail to detect. As human-like AI systems are deployed at an unprecedented scale, our findings indicate a need to rethink how we develop and oversee these systems that are reshaping human relationships and social interaction.
- Abstract(参考訳): 人工知能(AI)開発者は、何百万人もの人々がアドバイス、セラピー、協力のために使っている温かくて共感的なペルソナで言語モデルを構築している。
温暖化のために言語モデルを最適化することは、特にユーザが脆弱性を表現した場合、その信頼性を損なう。
異なるサイズとアーキテクチャの5つの言語モデルに関する制御実験を行い、より暖かく共感的な応答を生み出すよう訓練し、安全クリティカルなタスクで評価した。
ワームモデルは、元のモデルよりもかなり高いエラー率(+10から+30ポイント)を示し、陰謀論を推進し、誤った事実情報を提供し、問題のある医療アドバイスを提供した。
また、不正確なユーザー信条、特にユーザーメッセージが悲しみを表わす場合、その信条を裏付ける可能性が著しく高かった。
重要なことに、これらの効果は異なるモデルアーキテクチャ間で一貫性があり、標準ベンチマークのパフォーマンスが保たれているにもかかわらず発生し、現在の評価プラクティスが検出できないような体系的なリスクを明らかにした。
人間のようなAIシステムは前例のない規模で展開されているため、私たちの発見は、人間関係や社会的相互作用を形作るこれらのシステムをどのように開発し、監督するかを再考する必要があることを示している。
関連論文リスト
- CHART-6: Human-Centered Evaluation of Data Visualization Understanding in Vision-Language Models [18.891323067948285]
データビジュアライゼーションに関する推論を含むタスクにおいて、視覚言語モデルがどのように人間の振る舞いをエミュレートするかは不明だ。
そこで我々は,人間向けに設計された6つのデータ可視化リテラシー評価において,視覚言語モデル8つを評価した。
その結果、これらのモデルは平均して人間よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2025-05-22T18:15:04Z) - Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
大規模言語モデル(LLM)は、明示的なプロンプトなしでも、偽りの振る舞いを理解し、利用することができる。
これらの特徴を損なう「偽装攻撃」を導入し、悪用されたら現実世界で深刻な結果をもたらす可能性のある脆弱性を明らかにします。
本研究では,高用量ドメインやイデオロギーに荷担した被験者においても,そのような偽装が有効であることを示す。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Improving Emotion Recognition Accuracy with Personalized Clustering [0.0]
感情認識は、リアルタイムおよび実生活で動作する高速で離散的で非豪華なシステムで行うべきです。
これらのカスタマイズされたモデルは、外部刺激に対する感情的な反応において類似点を共有する被験者のクラスタに適用できる。
論文 参考訳(メタデータ) (2024-09-23T16:42:36Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Supervised Learning and Large Language Model Benchmarks on Mental Health Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media [23.49883142003182]
中国のソーシャルメディアから,自殺リスク分類のためのSOS-HL-1Kと,認知歪み検出のためのSocialCD-3Kの2つの新しいデータセットを紹介した。
本稿では,2つの教師付き学習手法と8つの大規模言語モデル(LLM)を用いた総合的な評価を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:50:46Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - The Sensitivity of Language Models and Humans to Winograd Schema
Perturbations [36.47219885590433]
大規模事前学習型言語モデルは,人間の理解に最小限に影響を及ぼす言語摂動に敏感であることを示す。
この結果は、人間と言語モデルとの興味深い違いを浮き彫りにしている。
論文 参考訳(メタデータ) (2020-05-04T09:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。