論文の概要: Engagement Undermines Safety: How Stereotypes and Toxicity Shape Humor in Language Models
- arxiv url: http://arxiv.org/abs/2510.18454v1
- Date: Tue, 21 Oct 2025 09:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.238404
- Title: Engagement Undermines Safety: How Stereotypes and Toxicity Shape Humor in Language Models
- Title(参考訳): エンゲージメントは安全を損なう:言語モデルにおけるステレオタイプと毒性形状のうなり声
- Authors: Atharvan Dogra, Soumya Suvra Ghosal, Ameet Deshpande, Ashwin Kalyan, Dinesh Manocha,
- Abstract要約: 大規模言語モデルは、クリエイティブな執筆やエンゲージメントコンテンツにますます使われ、アウトプットに対する安全性の懸念が高まっている。
本研究は, 現代のLLMパイプラインにおいて, ユーモア, 立体特異性, 毒性を測定することによって, 有害な内容とどのように結合するかを評価する。
- 参考スコア(独自算出の注目度): 55.98686105081078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used for creative writing and engagement content, raising safety concerns about the outputs. Therefore, casting humor generation as a testbed, this work evaluates how funniness optimization in modern LLM pipelines couples with harmful content by jointly measuring humor, stereotypicality, and toxicity. This is further supplemented by analyzing incongruity signals through information-theoretic metrics. Across six models, we observe that harmful outputs receive higher humor scores which further increase under role-based prompting, indicating a bias amplification loop between generators and evaluators. Information-theoretic analyses show harmful cues widen predictive uncertainty and surprisingly, can even make harmful punchlines more expected for some models, suggesting structural embedding in learned humor distributions. External validation on an additional satire-generation task with human perceived funniness judgments shows that LLM satire increases stereotypicality and typically toxicity, including for closed models. Quantitatively, stereotypical/toxic jokes gain $10-21\%$ in mean humor score, stereotypical jokes appear $11\%$ to $28\%$ more often among the jokes marked funny by LLM-based metric and up to $10\%$ more often in generations perceived as funny by humans.
- Abstract(参考訳): 大規模言語モデルは、クリエイティブな執筆やエンゲージメントコンテンツにますます使われ、アウトプットに対する安全性の懸念が高まっている。
そこで本研究では, 近代LLMパイプラインの滑稽性最適化と有害物質との結合性について, ユーモア, ステレオタイプ, 毒性を共同測定することによって評価した。
これは、情報理論のメトリクスを通して不整合信号を分析することでさらに補足される。
6つのモデルにまたがって、有害な出力はより高いユーモアのスコアを受け取り、ロールベースのプロンプトによりさらに増加し、ジェネレータと評価器間のバイアス増幅ループが示される。
情報理論分析は、有害な手がかりが予測的不確実性を広げ、驚くべきことに、一部のモデルでは有害なパンチラインを期待できる可能性を示し、学習されたユーモア分布に構造的な埋め込みを示唆している。
人間の知覚された面白さ判断を伴う追加の風刺生成タスクに対する外部的検証は、LLM風刺は、クローズドモデルを含む、ステレオタイプ性および典型的毒性を増大させることを示している。
定量的には、ステレオタイプ/有毒なジョークは平均ユーモアスコアで10-21\%、ステレオタイプジョークは11\%から28\%に、LCMベースのメトリクスで面白いとマークされたジョークでは最大10\%に上昇する。
関連論文リスト
- Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective [104.09817371557476]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。
毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T06:50:33Z) - From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy [6.124881326867511]
大きな言語モデルが広く採用されていることを踏まえ、ユーモアとAIの交わりは笑い事ではない。
本研究では,スタンドアップコメディの書き起こしからユーモラスな引用を正確に識別するモデルの有効性を評価する。
ユーモラスなパンチラインを抽出する能力について,様々なプロンプトの中からLLMを評価するために考案された新しいユーモラス検出指標を提案する。
論文 参考訳(メタデータ) (2025-04-12T02:19:53Z) - Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content [0.0]
提案するDeceptive Humor データセット (DHD) は, 偽造クレームから得られたユーモアを注入したコメントの集合である。
それぞれのエントリーには、Satire Level(微妙な風刺は1からオーバート風刺は3まで)とラベルが付けられ、5つのユーモアタイプに分類される。
データセットは英語、テルグ語、ヒンディー語、カンナダ語、タミル語、およびそれらのコードミキシング形式にまたがっており、多言語分析に有用なリソースとなっている。
論文 参考訳(メタデータ) (2025-03-20T10:58:02Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [78.20380492883022]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - CleanComedy: Creating Friendly Humor through Generative Techniques [5.720553544629197]
本稿では、英語とロシア語のジョークを部分的に注記した有毒度フィルタリングコーパスであるCleanComedyを提案する。
様々なジョークグループにおけるユーモアと毒性レベルの調査を通じて,データフィルタリング手法の有効性について検討した。
また,CreateComedyデータセットでトレーニングしたベースラインモデルを含め,人間によるジョークと生成ジョークの様々なグループを比較し,コンピュータユーモア生成の進歩について検討した。
論文 参考訳(メタデータ) (2024-12-12T11:57:59Z) - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting
Incongruity-Based Features for Humor Recognition [0.6445605125467573]
ジョークを2つの異なるコンポーネントに分割します。セットアップとパンチラインです。
ユーモアの不整合理論に触発され、セマンティック不確実性を生み出す部分としてセットをモデル化する。
ますます強力な言語モデルによって、私たちはGPT-2言語モデルにパンチラインとともにセットアップをフィードすることができた。
論文 参考訳(メタデータ) (2020-12-22T13:48:09Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。