論文の概要: Engagement Undermines Safety: How Stereotypes and Toxicity Shape Humor in Language Models
- arxiv url: http://arxiv.org/abs/2510.18454v1
- Date: Tue, 21 Oct 2025 09:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.238404
- Title: Engagement Undermines Safety: How Stereotypes and Toxicity Shape Humor in Language Models
- Title(参考訳): エンゲージメントは安全を損なう:言語モデルにおけるステレオタイプと毒性形状のうなり声
- Authors: Atharvan Dogra, Soumya Suvra Ghosal, Ameet Deshpande, Ashwin Kalyan, Dinesh Manocha,
- Abstract要約: 大規模言語モデルは、クリエイティブな執筆やエンゲージメントコンテンツにますます使われ、アウトプットに対する安全性の懸念が高まっている。
本研究は, 現代のLLMパイプラインにおいて, ユーモア, 立体特異性, 毒性を測定することによって, 有害な内容とどのように結合するかを評価する。
- 参考スコア(独自算出の注目度): 55.98686105081078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used for creative writing and engagement content, raising safety concerns about the outputs. Therefore, casting humor generation as a testbed, this work evaluates how funniness optimization in modern LLM pipelines couples with harmful content by jointly measuring humor, stereotypicality, and toxicity. This is further supplemented by analyzing incongruity signals through information-theoretic metrics. Across six models, we observe that harmful outputs receive higher humor scores which further increase under role-based prompting, indicating a bias amplification loop between generators and evaluators. Information-theoretic analyses show harmful cues widen predictive uncertainty and surprisingly, can even make harmful punchlines more expected for some models, suggesting structural embedding in learned humor distributions. External validation on an additional satire-generation task with human perceived funniness judgments shows that LLM satire increases stereotypicality and typically toxicity, including for closed models. Quantitatively, stereotypical/toxic jokes gain $10-21\%$ in mean humor score, stereotypical jokes appear $11\%$ to $28\%$ more often among the jokes marked funny by LLM-based metric and up to $10\%$ more often in generations perceived as funny by humans.
- Abstract(参考訳): 大規模言語モデルは、クリエイティブな執筆やエンゲージメントコンテンツにますます使われ、アウトプットに対する安全性の懸念が高まっている。
そこで本研究では, 近代LLMパイプラインの滑稽性最適化と有害物質との結合性について, ユーモア, ステレオタイプ, 毒性を共同測定することによって評価した。
これは、情報理論のメトリクスを通して不整合信号を分析することでさらに補足される。
6つのモデルにまたがって、有害な出力はより高いユーモアのスコアを受け取り、ロールベースのプロンプトによりさらに増加し、ジェネレータと評価器間のバイアス増幅ループが示される。
情報理論分析は、有害な手がかりが予測的不確実性を広げ、驚くべきことに、一部のモデルでは有害なパンチラインを期待できる可能性を示し、学習されたユーモア分布に構造的な埋め込みを示唆している。
人間の知覚された面白さ判断を伴う追加の風刺生成タスクに対する外部的検証は、LLM風刺は、クローズドモデルを含む、ステレオタイプ性および典型的毒性を増大させることを示している。
定量的には、ステレオタイプ/有毒なジョークは平均ユーモアスコアで10-21\%、ステレオタイプジョークは11\%から28\%に、LCMベースのメトリクスで面白いとマークされたジョークでは最大10\%に上昇する。
関連論文リスト
- Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective [104.09817371557476]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。
毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T06:50:33Z) - From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy [6.124881326867511]
大きな言語モデルが広く採用されていることを踏まえ、ユーモアとAIの交わりは笑い事ではない。
本研究では,スタンドアップコメディの書き起こしからユーモラスな引用を正確に識別するモデルの有効性を評価する。
ユーモラスなパンチラインを抽出する能力について,様々なプロンプトの中からLLMを評価するために考案された新しいユーモラス検出指標を提案する。
論文 参考訳(メタデータ) (2025-04-12T02:19:53Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [78.20380492883022]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - CleanComedy: Creating Friendly Humor through Generative Techniques [5.720553544629197]
本稿では、英語とロシア語のジョークを部分的に注記した有毒度フィルタリングコーパスであるCleanComedyを提案する。
様々なジョークグループにおけるユーモアと毒性レベルの調査を通じて,データフィルタリング手法の有効性について検討した。
また,CreateComedyデータセットでトレーニングしたベースラインモデルを含め,人間によるジョークと生成ジョークの様々なグループを比較し,コンピュータユーモア生成の進歩について検討した。
論文 参考訳(メタデータ) (2024-12-12T11:57:59Z) - Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models [27.936545041302377]
大規模言語モデル(LLM)は、テキストを編集することでユーモア検出のための合成データを生成することができる。
我々は、既存の人間のデータセット上でLLMをベンチマークし、現在のLLMは、ジョークを「不快に」する印象的な能力を示すことを示す。
我々は、GPT-4の合成データがバイリンガルアノテータによって高度に評価されているという、コード混成のイングリッシュ・ヒンディー語ユーモアデータセットにアプローチを拡張した。
論文 参考訳(メタデータ) (2024-02-23T02:58:12Z) - Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results [84.37263300062597]
風は人間の社会的行動、感情、認知の重要な要素である。
現在のユーモア検出法は、ステージ化されたデータのみに基づいており、「現実世界」の応用には不十分である。
約11時間の記録を含むPassau-Spontaneous Football Coach Humorデータセットを導入することで,この障害への対処に寄与する。
論文 参考訳(メタデータ) (2022-09-28T17:36:47Z) - Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting
Incongruity-Based Features for Humor Recognition [0.6445605125467573]
ジョークを2つの異なるコンポーネントに分割します。セットアップとパンチラインです。
ユーモアの不整合理論に触発され、セマンティック不確実性を生み出す部分としてセットをモデル化する。
ますます強力な言語モデルによって、私たちはGPT-2言語モデルにパンチラインとともにセットアップをフィードすることができた。
論文 参考訳(メタデータ) (2020-12-22T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。