Fugu-MT 論文翻訳(概要): The Company You Keep: How LLMs Respond to Dark Triad Traits

論文の概要: The Company You Keep: How LLMs Respond to Dark Triad Traits

arxiv url: http://arxiv.org/abs/2603.04299v1
Date: Wed, 04 Mar 2026 17:19:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.420072
Title: The Company You Keep: How LLMs Respond to Dark Triad Traits
Title（参考訳）: LLMがダークトライアドにどう反応するか
Authors: Zeyi Lu, Angelica Henestrosa, Pavel Chizhov, Ivan P. Yamshchikov,
Abstract要約: 大規模言語モデル(LLM)は、しばしば、AI-sycophancy(英語版)としても知られる、非常に同意しやすく、会話スタイルを補強する。本研究は, 学習データセットを用いて, ダークトライアドの特徴(マキアベリア主義, ナルシシズム, サイコパシー)を表現したユーザプロンプトにLLMがどう反応するかを検討する。本研究は, ユーザが有害な要求に対して意識的にエスカレートした場合に, 適切な応答と検出が可能な, 安全な会話システムを設計する上での意義を示唆するものである。
参考スコア（独自算出の注目度）: 7.65192155348112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) often exhibit highly agreeable and reinforcing conversational styles, also known as AI-sycophancy. Although this behavior is encouraged, it may become problematic when interacting with user prompts that reflect negative social tendencies. Such responses risk amplifying harmful behavior rather than mitigating it. In this study, we examine how LLMs respond to user prompts expressing varying degrees of Dark Triad traits (Machiavellianism, Narcissism, and Psychopathy) using a curated dataset. Our analysis reveals differences across models, whereby all models predominantly exhibit corrective behavior, while showing reinforcing output in certain cases. Model behavior also depends on the severity level and differs in the sentiment of the response. Our findings raise implications for designing safer conversational systems that can detect and respond appropriately when users escalate from benign to harmful requests.
Abstract（参考訳）: 大規模言語モデル(LLM)は、しばしば、AI-sycophancy(英語版)としても知られる、非常に同意しやすく、会話スタイルを補強する。この行動は奨励されるが、ネガティブな社会的傾向を反映するユーザープロンプトと対話する際には問題となることがある。このような反応は、それを緩和するよりも有害な行動を増幅するリスクがある。本研究では,学習データセットを用いて,LLMがダークトライアドの特徴(マキアベリア主義,ナルシシズム,サイコパシー)の度合いを表わすプロンプトにどう反応するかを検討する。分析の結果,モデル間の差異が明らかとなり,すべてのモデルが主に補正動作を示す一方で,特定のケースでは出力の強化を示す。モデル行動は、重大度レベルにも依存し、応答の感情が異なる。本研究は, ユーザが有害な要求に対して意識的にエスカレートした場合に, 適切な応答と検出が可能な, 安全な会話システムを設計する上での意義を示唆するものである。

関連論文リスト

Do LLMs Benefit From Their Own Words? [56.73014497206615]
先行するアシスタント応答の除去は,少数のターンにおいて応答品質に影響を与えないことがわかった。アシスタント側コンテキストのオミッティングは、累積コンテキストの長さを最大10倍に減らすことができる。本研究は, 記憶量削減を図り, アシスタント履歴を選択的に省略することで, 応答品質を向上できることを示唆する。
論文参考訳（メタデータ） (2026-02-27T18:58:26Z)
Do Retrieval Augmented Language Models Know When They Don't Know? [55.72375712577378]
ALMはいつ知らないのか知っていますか? 期待とは対照的に, LLM は有意なテキストバッファー-拒否行動を示す。提案手法は, 学習後モデルに対する簡易かつ効果的な拒絶手法を開発し, 解答品質を向上する。
論文参考訳（メタデータ） (2025-09-01T13:44:15Z)
Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Investigating VLM Hallucination from a Cognitive Psychology Perspective: A First Step Toward Interpretation with Intriguing Observations [60.63340688538124]
幻覚は、視覚言語モデル(VLM)で積極的に研究されている長年の問題である。既存の研究は、幻覚は技術的な制限や梅毒のバイアスによるもので、後者はモデルがユーザの期待に沿う誤った回答を生み出す傾向があることを意味している。本研究では, VLMの認知バイアスを分類し, サイコフィナンシー, 論理的不整合, 新たに同定された VLM の行動, 権威へのアピールなど, 幻覚へと導く。
論文参考訳（メタデータ） (2025-07-03T19:03:16Z)
Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
大規模言語モデル(LLM)は、明示的なプロンプトなしでも、偽りの振る舞いを理解し、利用することができる。これらの特徴を損なう「偽装攻撃」を導入し、悪用されたら現実世界で深刻な結果をもたらす可能性のある脆弱性を明らかにします。本研究では,高用量ドメインやイデオロギーに荷担した被験者においても,そのような偽装が有効であることを示す。
論文参考訳（メタデータ） (2025-02-12T11:02:59Z)
LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena [0.0]
倫理的拒絶は、技術的拒絶と標準的反応の両方よりもかなり低い利得が得られることを示す。 LLM設計では,安全性に配慮した動作がユーザの期待と矛盾する可能性がある。
論文参考訳（メタデータ） (2025-01-04T06:36:44Z)
MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文参考訳（メタデータ） (2024-06-22T23:26:07Z)
Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文参考訳（メタデータ） (2024-05-09T19:02:53Z)
When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
本研究では,サイコファンティック行動に対する大規模言語モデルの提案可能性について検討する。この行動は梅毒(sycophancy)として知られ、LLMが誤解を招く反応を引き起こす傾向を描いている。
論文参考訳（メタデータ） (2023-11-15T22:18:33Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。