論文の概要: Longitudinal Monitoring of LLM Content Moderation of Social Issues
- arxiv url: http://arxiv.org/abs/2510.01255v1
- Date: Wed, 24 Sep 2025 21:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.760526
- Title: Longitudinal Monitoring of LLM Content Moderation of Social Issues
- Title(参考訳): 社会問題におけるLLM含量調整の経時的モニタリング
- Authors: Yunlang Dai, Emma Lurie, Danaé Metaxa, Sorelle A. Friedler,
- Abstract要約: 大規模言語モデル(LLM)のアウトプットは、不透明で頻繁に変化する企業のコンテンツモデレーションポリシーとプラクティスによって形作られています。
我々は、LLMの拒絶を公に測定し追跡する縦断監査システムであるAI Watchmanを紹介する。
400以上の社会的課題のデータセットを使用して、Open AIのモデレーションエンドポイント、GPT-4.1、GPT-5、DeepSeekを監査する。
企業方針の変更、公に発表されていないものでさえ、AI Watchmanによって検出できる証拠を見つける。
- 参考スコア(独自算出の注目度): 1.8059331230167261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models' (LLMs') outputs are shaped by opaque and frequently-changing company content moderation policies and practices. LLM moderation often takes the form of refusal; models' refusal to produce text about certain topics both reflects company policy and subtly shapes public discourse. We introduce AI Watchman, a longitudinal auditing system to publicly measure and track LLM refusals over time, to provide transparency into an important and black-box aspect of LLMs. Using a dataset of over 400 social issues, we audit Open AI's moderation endpoint, GPT-4.1, and GPT-5, and DeepSeek (both in English and Chinese). We find evidence that changes in company policies, even those not publicly announced, can be detected by AI Watchman, and identify company- and model-specific differences in content moderation. We also qualitatively analyze and categorize different forms of refusal. This work contributes evidence for the value of longitudinal auditing of LLMs, and AI Watchman, one system for doing so.
- Abstract(参考訳): 大規模言語モデル(LLM)のアウトプットは、不透明で頻繁に変化する企業のコンテンツモデレーションポリシーとプラクティスによって形作られています。
モデルが特定のトピックに関するテキストを作成することを拒否したことは、会社の方針を反映し、公の言論を微妙に形作る。
我々は、LLMの重要かつブラックボックス的な側面への透明性を提供するために、LLMの拒絶を公然と測定し追跡する縦断監査システムであるAI Watchmanを紹介する。
400以上の社会的課題のデータセットを使用して、Open AIのモデレーションエンドポイント、GPT-4.1、GPT-5、DeepSeek(英語と中国語の両方)を監査する。
企業方針の変更は、公表されていないものでさえ、AI Watchmanによって検出され、コンテンツモデレーションにおける企業固有の違いとモデル固有の違いを特定することができる。
また、異なる形態の拒絶を定性的に分析し分類する。
この研究は,LLMの経時的監査の価値を示す証拠と,それを行う1つのシステムであるAI Watchmanに寄与する。
関連論文リスト
- Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - PRISM: A Methodology for Auditing Biases in Large Language Models [9.751718230639376]
PRISMは、大規模言語モデルを監査するための柔軟な調査ベースの方法論である。
優先事項を直接調査するのではなく、タスクベースの調査を通じて間接的にこれらのポジションを照会しようとする。
論文 参考訳(メタデータ) (2024-10-24T16:57:20Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。