論文の概要: Ideology-Based LLMs for Content Moderation
- arxiv url: http://arxiv.org/abs/2510.25805v1
- Date: Wed, 29 Oct 2025 06:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.499913
- Title: Ideology-Based LLMs for Content Moderation
- Title(参考訳): コンテンツモデレーションのためのIdeology-based LLM
- Authors: Stefano Civelli, Pietro Bernardelle, Nardiena A. Pratama, Gianluca Demartini,
- Abstract要約: 大規模言語モデル(LLM)は、コンテンツモデレーションシステムでますます使われている。
本研究では,ペルソナ導入が有害コンテンツ分類の一貫性と公平性にどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 3.8439345751986913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in content moderation systems, where ensuring fairness and neutrality is essential. In this study, we examine how persona adoption influences the consistency and fairness of harmful content classification across different LLM architectures, model sizes, and content modalities (language vs. vision). At first glance, headline performance metrics suggest that personas have little impact on overall classification accuracy. However, a closer analysis reveals important behavioral shifts. Personas with different ideological leanings display distinct propensities to label content as harmful, showing that the lens through which a model "views" input can subtly shape its judgments. Further agreement analyses highlight that models, particularly larger ones, tend to align more closely with personas from the same political ideology, strengthening within-ideology consistency while widening divergence across ideological groups. To show this effect more directly, we conducted an additional study on a politically targeted task, which confirmed that personas not only behave more coherently within their own ideology but also exhibit a tendency to defend their perspective while downplaying harmfulness in opposing views. Together, these findings highlight how persona conditioning can introduce subtle ideological biases into LLM outputs, raising concerns about the use of AI systems that may reinforce partisan perspectives under the guise of neutrality.
- Abstract(参考訳): 大規模言語モデル(LLM)は、公正さと中立性を保証するために、コンテンツモデレーションシステムでますます使われている。
本研究では,パーソナの採用が,異なるLLMアーキテクチャ,モデルサイズ,およびコンテンツモダリティ(言語対視覚)間の有害コンテンツ分類の一貫性と公平性にどのように影響するかを検討する。
一見すると、見出しのパフォーマンス指標は、ペルソナが全体的な分類精度にほとんど影響を与えていないことを示唆している。
しかし、より綿密な分析により、重要な行動シフトが明らかになる。
異なるイデオロギー的傾きを持つ人物は、モデルが入力するレンズが、その判断を微妙に形作ることができることを示す。
さらなる合意分析では、モデル、特に大きなものは、同じ政治的イデオロギーからのペルソナとより緊密に一致し、イデオロギーグループにまたがるばらつきを広げながら、イデオロギー内の一貫性を強化する傾向があることが強調されている。
この効果をより直接的に示すために、政治的に対象とする課題について追加調査を行い、自己のイデオロギーの中でより一貫性のある行動をとるだけでなく、対立する見解の有害性を軽視しながら、その視点を守る傾向を示した。
これらの知見は、ペルソナ条件付けがLLM出力に微妙なイデオロギーバイアスを導入し、中立性の下でパルチザン的な視点を強化する可能性のあるAIシステムの使用に対する懸念を提起するものである。
関連論文リスト
- Latent Topic Synthesis: Leveraging LLMs for Electoral Ad Analysis [51.95395936342771]
ラベルなしコーパスから解釈可能なトピック分類を自動生成するエンドツーエンドフレームワークを提案する。
われわれはこの枠組みを、2024年アメリカ合衆国大統領選挙の1ヶ月前のMeta政治広告の大規模なコーパスに適用する。
提案手法は,潜在談話構造を明らかにし,意味的に豊かなトピックラベルを合成し,モラル・フレーミングの次元でトピックを注釈する。
論文 参考訳(メタデータ) (2025-10-16T20:30:20Z) - Understanding and evaluating computer vision models through the lens of counterfactuals [2.2819712364325047]
この論文は、視覚分類器および生成モデルにおけるバイアスの説明、監査、緩和に反事実を使用するフレームワークを開発する。
体系的に意味のある属性を体系的に変更し、他の属性を固定することで、これらの手法は突発的な相関を明らかにする。
これらの貢献は、識別モデルと生成モデルの両方において、解釈可能性、公正性、因果性のための統一レンズとして反事実を示す。
論文 参考訳(メタデータ) (2025-08-28T15:11:49Z) - Political Ideology Shifts in Large Language Models [6.062377561249039]
大規模言語モデル(LLM)における合成ペルソナの導入がイデオロギー表現に与える影響について検討する。
分析の結果, より大型のモデルでは, より広範かつ暗黙的なイデオロギー的カバレッジが示され, (ii) 明示的なイデオロギー的手がかりへの感受性は, 規模に応じて増大し, (iii) モデルでは左リバタリアン的プライミングよりも右権威主義に強く反応し, (iv) ペルソナ記述における主題的内容はイデオロギー的変化を誘発し, サイズを増幅することがわかった。
論文 参考訳(メタデータ) (2025-08-22T00:16:38Z) - From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [63.25540801694765]
大きな言語モデル (LLMs) は言語能力を示すが、同じバランスをとれるかどうかは不明だ。
本稿では,LLMと人間を定量的に比較するために,Information Bottleneckの原理を適用した。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z) - "Whose Side Are You On?" Estimating Ideology of Political and News Content Using Large Language Models and Few-shot Demonstration Selection [5.277598111323805]
既存のイデオロギーを分類するアプローチは、大規模なデータセットのラベル付けを必要とするため、進化するイデオロギーの文脈に適応できないという点で制限されている。
本稿では、オンラインコンテンツの政治的イデオロギーを、文脈内学習を通じて、米国政治スペクトルの文脈で分類する大規模言語モデルの可能性について検討する。
論文 参考訳(メタデータ) (2025-03-23T02:32:25Z) - Beyond Partisan Leaning: A Comparative Analysis of Political Bias in Large Language Models [6.549047699071195]
本研究では、大規模言語モデルにおける政治的行動を評価するために、ペルソナフリーでトピック固有のアプローチを採用する。
米国、ヨーロッパ、中国、中東で開発された43の大規模言語モデルからの反応を分析した。
発見は、ほとんどのモデルが中心左あるいは左イデオロギー的にリーンであり、非党派的エンゲージメントパターンが異なることを示している。
論文 参考訳(メタデータ) (2024-12-21T19:42:40Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。