Fugu-MT 論文翻訳(概要): Investigating Counterfactual Unfairness in LLMs towards Identities through Humor

論文の概要: Investigating Counterfactual Unfairness in LLMs towards Identities through Humor

arxiv url: http://arxiv.org/abs/2604.18729v1
Date: Mon, 20 Apr 2026 18:26:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.423876
Title: Investigating Counterfactual Unfairness in LLMs towards Identities through Humor
Title（参考訳）: 地震によるLLMの虚偽性に関する調査研究
Authors: Shubin Kim, Yejin Son, Junyeong Park, Keummin Ka, Seungbeen Lee, Jaeyoung Lee, Hyeju Jang, Alice Oh, Youngjae Yu,
Abstract要約: おかしなことは、私たちが誰であるか、他人をどう判断するかをよく反映している。本稿では,話し手の交換時にモデルがどう反応するかを観察することにより,ユーモアによる反実的不公平を調査する。最先端モデルに対する実験では、一貫した関係性の違いが示される。
参考スコア（独自算出の注目度）: 38.71109030688384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humor holds up a mirror to social perception: what we find funny often reflects who we are and how we judge others. When language models engage with humor, their reactions expose the social assumptions they have internalized from training data. In this paper, we investigate counterfactual unfairness through humor by observing how the model's responses change when we swap who speaks and who is addressed while holding other factors constant. Our framework spans three tasks: humor generation refusal, speaker intention inference, and relational/societal impact prediction, covering both identity-agnostic humor and identity-specific disparagement humor. We introduce interpretable bias metrics that capture asymmetric patterns under identity swaps. Experiments across state-of-the-art models reveal consistent relational disparities: jokes told by privileged speakers are refused up to 67.5% more often, judged as malicious 64.7% more frequently, and rated up to 1.5 points higher in social harm on a 5-point scale. These patterns highlight how sensitivity and stereotyping coexist in generative models, complicating efforts toward fairness and cultural alignment.
Abstract（参考訳）: おかしなことは、私たちが誰であるか、他人をどう判断するかをよく反映している。言語モデルがユーモアと関わると、その反応はトレーニングデータから内部化した社会的仮定を明らかにする。本稿では,他の要因を一定に保ちながら話し相手を交換した場合に,モデルがどう反応するかを観察することにより,ユーモアによる反実的不公平を調査する。枠組みは, ユーモア生成拒否, 話者意図推論, リレーショナル/社会的影響予測の3つの課題にまたがる。我々は、アイデンティティスワップの下で非対称パターンをキャプチャする解釈可能なバイアスメトリクスを導入する。有能な話者によるジョークは67.5%以上の頻度で拒否され、悪意のある64.7%以上の頻度で評価され、5ポイント規模の社会被害では1.5ポイント以上の評価を受けている。これらのパターンは、生成モデルにおいて感度とステレオタイピングが共存する様子を強調し、公平性と文化的アライメントへの取り組みを複雑にしている。

関連論文リスト

Engagement Undermines Safety: How Stereotypes and Toxicity Shape Humor in Language Models [55.98686105081078]
大規模言語モデルは、クリエイティブな執筆やエンゲージメントコンテンツにますます使われ、アウトプットに対する安全性の懸念が高まっている。本研究は, 現代のLLMパイプラインにおいて, ユーモア, 立体特異性, 毒性を測定することによって, 有害な内容とどのように結合するかを評価する。
論文参考訳（メタデータ） (2025-10-21T09:28:09Z)
The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文参考訳（メタデータ） (2025-09-03T21:27:10Z)
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。 SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。 SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文参考訳（メタデータ） (2025-05-01T19:06:10Z)
From Punchlines to Predictions: A Metric to Assess LLM Performance in Identifying Humor in Stand-Up Comedy [6.124881326867511]
大きな言語モデルが広く採用されていることを踏まえ、ユーモアとAIの交わりは笑い事ではない。本研究では,スタンドアップコメディの書き起こしからユーモラスな引用を正確に識別するモデルの有効性を評価する。ユーモラスなパンチラインを抽出する能力について,様々なプロンプトの中からLLMを評価するために考案された新しいユーモラス検出指標を提案する。
論文参考訳（メタデータ） (2025-04-12T02:19:53Z)
Where Fact Ends and Fairness Begins: Redefining AI Bias Evaluation through Cognitive Biases [77.3489598315447]
事実と公正の境界を識別することは有意義な公正性評価に不可欠である,と我々は主張する。 Fact-or-Fair は (i) 客観的なクエリを記述的, 事実に基づく判断, (ii) 主観的クエリを規範的, 公平性に基づく判断に整合させたベンチマークである。
論文参考訳（メタデータ） (2025-02-09T10:54:11Z)
THInC: A Theory-Driven Framework for Computational Humor Detection [2.0960189135529212]
単一の包括的ユーモア理論についてはまだ合意がない。ユーモアを検出するためのほとんどの計算手法は、既存のユーモア理論に基づいていない。本稿では,ユーモア分類のための解釈可能な枠組みを作成することにより,この長期的ギャップを埋めることに寄与する。
論文参考訳（メタデータ） (2024-09-02T13:09:26Z)
Moral Sparks in Social Media Narratives [14.025768295979184]
実生活における倫理的シナリオにおける人間の道徳的判断を理解するために,ソーシャルメディア上でのインタラクションを検討する。具体的には、r/AmITheAssholeと呼ばれるRedditの人気のサブレディット(サブコミュニティ)の投稿を調べる。
論文参考訳（メタデータ） (2023-10-30T05:03:26Z)
Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting Incongruity-Based Features for Humor Recognition [0.6445605125467573]
ジョークを2つの異なるコンポーネントに分割します。セットアップとパンチラインです。ユーモアの不整合理論に触発され、セマンティック不確実性を生み出す部分としてセットをモデル化する。ますます強力な言語モデルによって、私たちはGPT-2言語モデルにパンチラインとともにセットアップをフィードすることができた。
論文参考訳（メタデータ） (2020-12-22T13:48:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。