論文の概要: What's Taboo for You? - An Empirical Evaluation of LLMs Behavior Toward Sensitive Content
- arxiv url: http://arxiv.org/abs/2507.23319v1
- Date: Thu, 31 Jul 2025 08:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.23465
- Title: What's Taboo for You? - An Empirical Evaluation of LLMs Behavior Toward Sensitive Content
- Title(参考訳): あなたにとってのタブーとは何か - 感性コンテンツに向けたLCMの行動の実証的評価
- Authors: Alfio Ferrara, Sergio Picascia, Laura Pinnavaia, Vojimir Ranitovic, Elisabetta Rocchetti, Alice Tuveri,
- Abstract要約: 本研究は, GPT-4o-miniの暗黙的モデレーション挙動を, センシティブな内容のパラフレーズ化時に実験的に解析した。
実験の結果, GPT-4o-miniは, 内容が低感度なクラスに対して系統的に中和され, 脱語やタブー語が大幅に減少することが示唆された。
- 参考スコア(独自算出の注目度): 1.6492989697868894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proprietary Large Language Models (LLMs) have shown tendencies toward politeness, formality, and implicit content moderation. While previous research has primarily focused on explicitly training models to moderate and detoxify sensitive content, there has been limited exploration of whether LLMs implicitly sanitize language without explicit instructions. This study empirically analyzes the implicit moderation behavior of GPT-4o-mini when paraphrasing sensitive content and evaluates the extent of sensitivity shifts. Our experiments indicate that GPT-4o-mini systematically moderates content toward less sensitive classes, with substantial reductions in derogatory and taboo language. Also, we evaluate the zero-shot capabilities of LLMs in classifying sentence sensitivity, comparing their performances against traditional methods.
- Abstract(参考訳): Proprietary Large Language Models (LLMs) は、丁寧さ、形式性、暗黙のコンテンツモデレーションに傾向を示す。
これまでの研究は主に、センシティブなコンテンツを中和・解毒するためのモデルを明示的に訓練することに焦点を当ててきたが、LLMが明示的な指示なしに暗黙的に言語を衛生化するかどうかについては、限定的な調査がなされている。
本研究は,GPT-4o-miniの過敏性内容のパラフレーズ化における暗黙的モデレーション挙動を実験的に解析し,感度変化の程度を評価する。
実験の結果, GPT-4o-miniは, 内容が低感度なクラスに対して系統的に中和され, 脱語やタブー語が大幅に減少することが示唆された。
また,文感度の分類におけるLLMのゼロショット機能の評価を行い,従来の手法と比較した。
関連論文リスト
- Probing Association Biases in LLM Moderation Over-Sensitivity [42.191744175730726]
大規模言語モデルは、コンテンツモデレーションに広く使用されるが、しばしば良心的なコメントを有毒と誤分類する。
トピック・アソシエーション・アナリティクス(トピック・アソシエーション・アナリティクス)は,LLMが特定のトピックと毒性をどう関連づけるかを定量化するセマンティック・レベルのアプローチである。
より高度なモデル(例えば、GPT-4 Turbo)は、全体的な偽陽性率が低いにもかかわらず、より強力なトピックステレオタイプを示す。
論文 参考訳(メタデータ) (2025-05-29T18:07:48Z) - Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0435202333125977]
大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。
自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。
以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-26T20:01:44Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文 参考訳(メタデータ) (2024-06-26T21:17:20Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection [29.138463029748547]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。