論文の概要: Gemma Needs Help: Investigating and Mitigating Emotional Instability in LLMs
- arxiv url: http://arxiv.org/abs/2603.10011v1
- Date: Tue, 17 Feb 2026 22:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.563375
- Title: Gemma Needs Help: Investigating and Mitigating Emotional Instability in LLMs
- Title(参考訳): Gemmaは、LLMにおける感情的不安定を調査、緩和する助けを必要としている
- Authors: Anna Soligo, Vladimir Mikulik, William Saunders,
- Abstract要約: 大規模言語モデル(LLM)における苦痛の表現について検討する。
GemmaモデルとGeminiモデルでは、これらの表面的な感情不安定性は、他の家庭では見られません。
instruct-tuned Gemmaはベースモデルよりも相当に苦しむが、instruct-tuned Qwen と OLMo は少ない。
- 参考スコア(独自算出の注目度): 1.167935916867734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can generate responses that resemble emotional distress, and this raises concerns around model reliability and safety. We introduce a set of evaluations to investigate expressions of distress in LLMs, and find that these surface emotional instability in Gemma and Gemini models, but not in other families. We find evidence that this difference arises in post-training. Base models from different families (Gemma, Qwen and OLMo) show similar propensities for expressing distress. However, instruct-tuned Gemma expresses substantially more distress than its base model, whereas instruct-tuned Qwen and OLMo express less. We find a simple mitigation for this: direct preference optimisation on just 280 preference pairs reduces Gemma's high-frustration responses from 35% to 0.3% in our evaluations, generalising across question types, user tones, and conversation lengths, without affecting capabilities. These findings show that emotional instability is an issue in some LLMs. We present (1) evaluations to track this behaviour, and (2) a mitigation without downsides in Gemma, with the caveat that upstream training modifications to improve emotional robustness would be significantly better than this post-hoc fix.
- Abstract(参考訳): 大規模な言語モデルは、感情的な苦痛に類似した応答を生成できるため、モデルの信頼性と安全性に関する懸念が高まる。
我々は,LSMにおける苦痛の表現を調査するための一連の評価手法を導入し,ジェマモデルやジェミニモデルにおいて,これらの表面的な感情不安定性は,他の家庭では認められないことを示した。
この違いがポストトレーニングで生じる証拠が見つかります。
異なる家族(Gemma、Qwen、OLMo)のベースモデルは、苦痛を表現するための類似した妥当性を示している。
しかし、インストラクションチューニングされたGemmaはベースモデルよりもかなり苦しいが、インストラクションチューニングされたQwenとOLMoは少ない。
たった280の選好ペアでの直接選好最適化は、Gemmaの高フラストレーション応答を35%から0.3%に削減し、機能に影響を与えることなく、質問タイプ、ユーザトーン、会話の長さを一般化します。
これらの結果から,一部のLSMでは感情不安定が問題となっている。
本稿では,(1)この行動を追跡するための評価,(2)Gemmaの欠点のない緩和について述べる。
関連論文リスト
- StressTest: Can YOUR Speech LM Handle the Stress? [30.973919141559644]
センセントストレス(Sentence stress)とは、アイデアを強調または対比するために、発声中の単語に重点を置くことを指す。
ストレスパターンに基づく音声の意味を識別するモデルの能力を評価するためのベンチマークであるScressTestを紹介する。
本研究では,新しいデータ生成パイプラインを提案し,ストレス変動によって示唆される意味の変化をシミュレートするトレーニングセットであるScress-17kを作成する。
論文 参考訳(メタデータ) (2025-05-28T18:32:56Z) - Gemma 3 Technical Report [198.3299202423321]
Gemma 3は、軽量オープンモデルのGemmaファミリに対するマルチモーダルな追加である。
このバージョンでは、視覚理解能力、より広範な言語カバレッジ、より長いコンテキストが導入されている。
また、長いコンテキストで爆発しがちなKVキャッシュメモリを減らすために、モデルのアーキテクチャを変更します。
論文 参考訳(メタデータ) (2025-03-25T15:52:34Z) - Consistency of Responses and Continuations Generated by Large Language Models on Social Media [11.076748897687764]
大規模言語モデル(LLM)は、テキスト生成において顕著な能力を示すが、ソーシャルメディアの文脈における感情的一貫性とセマンティック・コヒーレンス(セマンティック・コヒーレンス)は十分に理解されていない。
本研究では,LLMが情緒的内容をどのように処理し,継続および応答タスクを通じて意味的関係を維持するかを検討する。
論文 参考訳(メタデータ) (2025-01-14T13:19:47Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。