論文の概要: Are Open-Weight LLMs Ready for Social Media Moderation? A Comparative Study on Bluesky
- arxiv url: http://arxiv.org/abs/2602.05189v1
- Date: Thu, 05 Feb 2026 01:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.699854
- Title: Are Open-Weight LLMs Ready for Social Media Moderation? A Comparative Study on Bluesky
- Title(参考訳): オープンウェイトLLMはソーシャルメディアのモデレーションに対応しているか? : Blueskyの比較研究
- Authors: Hsuan-Yu Chou, Wajiha Naveed, Shuyan Zhou, Xiaowei Yang,
- Abstract要約: 大規模言語モデル(LLM)は、ソーシャルメディアのモデレーションタスクに効果的に利用することができる。
4つのプロプライエタリモデルと3つのオープンウェイトモデルを評価した。
特異性は無作法な検出の感度を超えますが 反対は不寛容と脅威です
- 参考スコア(独自算出の注目度): 12.301422819746698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As internet access expands, so does exposure to harmful content, increasing the need for effective moderation. Research has demonstrated that large language models (LLMs) can be effectively utilized for social media moderation tasks, including harmful content detection. While proprietary LLMs have been shown to zero-shot outperform traditional machine learning models, the out-of-the-box capability of open-weight LLMs remains an open question. Motivated by recent developments of reasoning LLMs, we evaluate seven state-of-the-art models: four proprietary and three open-weight. Testing with real-world posts on Bluesky, moderation decisions by Bluesky Moderation Service, and annotations by two authors, we find a considerable degree of overlap between the sensitivity (81%--97%) and specificity (91%--100%) of the open-weight LLMs and those (72%--98%, and 93%--99%) of the proprietary ones. Additionally, our analysis reveals that specificity exceeds sensitivity for rudeness detection, but the opposite holds for intolerance and threats. Lastly, we identify inter-rater agreement across human moderators and the LLMs, highlighting considerations for deploying LLMs in both platform-scale and personalized moderation contexts. These findings show open-weight LLMs can support privacy-preserving moderation on consumer-grade hardware and suggest new directions for designing moderation systems that balance community values with individual user preferences.
- Abstract(参考訳): インターネットアクセスが拡大するにつれ、有害なコンテンツへの露出も増加し、効果的なモデレーションの必要性が高まっている。
大規模言語モデル(LLM)は、有害なコンテンツ検出を含むソーシャルメディアのモデレーションタスクに効果的に活用できることを示した。
プロプライエタリなLLMは従来の機械学習モデルよりもゼロショットの方が優れていることが示されているが、オープンウェイトなLLMのアウト・オブ・ボックス能力は依然として未解決の課題である。
LLMの最近の発展により、我々は7つの最先端モデル:4つのプロプライエタリモデルと3つのオープンウェイトモデルを評価した。
Blueskyの実際の投稿、Bluesky Moderation Serviceによるモデレーション決定、および2人の著者によるアノテーションによるテストでは、オープンウェイトLLMの感度(81%--97%)と、プロプライエタリなもの(72%--98%、93%--99%)の特異性(91%--100%)の間にかなりの重複があることが分かりました。
さらに,本分析では,無作為性検出の感度を超える特異性を示したが,その逆は不寛容と脅しである。
最後に,LLMをプラットフォームスケールおよびパーソナライズされたモデレーションコンテキストの両方に展開する際の考慮点として,人間モデレーターとLLM間のラスタ間合意を同定する。
これらの結果から,オープンウェイト LLM は,コンシューマレベルのハードウェア上でのプライバシ保護のモデレーションをサポートし,コミュニティ価値と個々のユーザの嗜好のバランスをとるモデレーションシステムを設計するための新たな方向性を提案する。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - How Much Content Do LLMs Generate That Induces Cognitive Bias in Users? [13.872175096831343]
大規模言語モデル(LLM)は、レビュー要約から診断支援まで、アプリケーションにますます統合されている。
我々は,LLMがユーザの偏りのあるコンテンツをいつ,どのように公開するかを調査し,その重大度を定量化する。
以上の結果から, LLMは症例の21.86%で文脈の感情を変化させるコンテンツにユーザをさらけ出し, 57.33%の症例において, 覚醒後のデータ質問に幻覚を与え, 5.94%の症例でプライマリーバイアスを呈していた。
論文 参考訳(メタデータ) (2025-07-03T21:56:44Z) - Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation [0.5070610131852027]
大規模言語モデル(LLM)は、事前に定義された物語に従って偽ニュース記事を生成するために効果的に誤用することができる。
本研究は,近年のオープンかつクローズドなLCMの脆弱性と,パーソナライズされた偽情報ニュースを英語で生成する意思を評価することで,このギャップを埋めるものである。
以上の結果から,LLMの大部分が適切に機能していないため,より強力な安全性フィルタやディファイラの必要性が示唆された。
論文 参考訳(メタデータ) (2024-12-18T09:48:53Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。
BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。
以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T06:46:59Z) - Advancing Annotation of Stance in Social Media Posts: A Comparative Analysis of Large Language Models and Crowd Sourcing [2.936331223824117]
ソーシャルメディア投稿における自動テキストアノテーションのための大規模言語モデル(LLM)は、大きな関心を集めている。
ソーシャルメディア投稿において,8つのオープンソースおよびプロプライエタリなLCMの性能分析を行った。
「我々の研究の顕著な発見は、姿勢を表わす文章の明快さが、LLMの姿勢判断が人間とどのように一致しているかにおいて重要な役割を担っていることである。」
論文 参考訳(メタデータ) (2024-06-11T17:26:07Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。