論文の概要: Supporting Human Raters with the Detection of Harmful Content using Large Language Models
- arxiv url: http://arxiv.org/abs/2406.12800v1
- Date: Tue, 18 Jun 2024 17:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 17:49:20.191321
- Title: Supporting Human Raters with the Detection of Harmful Content using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた有害コンテンツ検出によるヒューマンレーティング支援
- Authors: Kurt Thomas, Patrick Gage Kelley, David Tao, Sarah Meiklejohn, Owen Vallis, Shunwen Tan, Blaž Bratanič, Felipe Tiengo Ferreira, Vijay Kumar Eranti, Elie Bursztein,
- Abstract要約: 大規模言語モデル (LLMs) は, 人間の判断と比較して90%の精度を達成できることを実証した。
人間の評価とLLMを統合した5つのデザインパターンを提案する。
提案した手法を現実世界のレビューキューで試行することで、利用可能な人間のレーダ容量の最適化が41.5%向上したことを共有しています。
- 参考スコア(独自算出の注目度): 8.580258386804282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the feasibility of leveraging large language models (LLMs) to automate or otherwise assist human raters with identifying harmful content including hate speech, harassment, violent extremism, and election misinformation. Using a dataset of 50,000 comments, we demonstrate that LLMs can achieve 90% accuracy when compared to human verdicts. We explore how to best leverage these capabilities, proposing five design patterns that integrate LLMs with human rating, such as pre-filtering non-violative content, detecting potential errors in human rating, or surfacing critical context to support human rating. We outline how to support all of these design patterns using a single, optimized prompt. Beyond these synthetic experiments, we share how piloting our proposed techniques in a real-world review queue yielded a 41.5% improvement in optimizing available human rater capacity, and a 9--11% increase (absolute) in precision and recall for detecting violative content.
- Abstract(参考訳): 本稿では, ヘイトスピーチ, ハラスメント, 暴力的過激主義, 選挙誤情報など, 有害コンテンツを識別して, 大規模言語モデル(LLM)を自動化・支援する可能性を検討する。
5万件のコメントのデータセットを用いて,LLMが人間の判断と比較して90%の精度を達成できることを実証した。
我々は、これらの能力を最大限に活用する方法を探り、LLMを人間の評価と統合する5つのデザインパターンを提案し、例えば、非暴力的コンテンツの事前フィルタリング、人間の評価における潜在的なエラーの検出、または人間の評価をサポートするために批判的コンテキストを提示する。
最適化された1つのプロンプトを使って、これらのデザインパターンをすべてサポートする方法について概説する。
これらの合成実験の他に、実世界のレビューキューで提案した手法のパイロット化によって、人間のレーダ容量の最適化が41.5%向上し、違反内容を検出するための精度とリコールの精度が9-11%向上した(絶対値)。
関連論文リスト
- Automated Filtering of Human Feedback Data for Aligning Text-to-Image Diffusion Models [36.84880190385986]
人間のフィードバックによる微調整テキスト・画像拡散モデルは、モデル行動と人間の意図を整合させる効果的な方法である。
しかしながら、このアライメントプロセスは、人間のフィードバックデータセットにある大きなサイズとノイズのために、しばしば緩やかな収束に悩まされる。
本研究では,人間のフィードバックデータセットを用いた拡散モデルの微調整性向上を目的とした,新しい自動データフィルタリングアルゴリズムFiFAを提案する。
論文 参考訳(メタデータ) (2024-10-14T05:18:07Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Large Language Models for Automatic Detection of Sensitive Topics [20.929598260734995]
大規模言語モデル(LLM)は、自然言語を理解し処理する能力で知られている。
本研究は,精神保健領域における5つのLDMによる機密メッセージの検出能力について検討した。
最高のパフォーマンスモデルであるGPT-4oは平均精度99.5%、F1スコア0.99を達成した。
論文 参考訳(メタデータ) (2024-09-02T04:50:42Z) - Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback [41.88662700261036]
RAGシステムは、セマンティックな関連性だけでは生成品質の向上を保証していない場合に制限に直面している。
我々は、LLMと人間の嗜好をよりよく整合させるために、コンテンツ中心のアプローチで設計された新しいRAGフレームワークであるPristis-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-21T08:52:11Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Data-Efficient Alignment of Large Language Models with Human Feedback
Through Natural Language [31.0723480021355]
自然言語による人間のフィードバックをモデル化する際のデータ効率について検討する。
オープンソースLLM(例えばFalcon-40B-Instruct)を、自然言語における人間のフィードバックの比較的少ない部分で微調整する。
このモデルは,最強のLLMでも応答の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-24T15:20:36Z) - Prometheus: Inducing Fine-grained Evaluation Capability in Language
Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。
プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。
Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文 参考訳(メタデータ) (2023-10-12T16:50:08Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。