論文の概要: Efficient Toxic Content Detection by Bootstrapping and Distilling Large
Language Models
- arxiv url: http://arxiv.org/abs/2312.08303v1
- Date: Wed, 13 Dec 2023 17:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 14:36:32.086677
- Title: Efficient Toxic Content Detection by Bootstrapping and Distilling Large
Language Models
- Title(参考訳): 大規模言語モデルのブートストラップと蒸留による効率的な毒性検出
- Authors: Jiang Zhang, Qiong Wu, Yiming Xu, Cheng Cao, Zheng Du, Konstantinos
Psounis
- Abstract要約: 大規模言語モデル(LLM)は、優れたゼロショットと少数ショットのin-Thought学習能力により、有害なコンテンツ検出を約束している。
BD-LLMは, 毒性物質検出のためのブートストラップ法と蒸留法において, 新規かつ効率的な手法である。
- 参考スコア(独自算出の注目度): 10.490147336936504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Toxic content detection is crucial for online services to remove
inappropriate content that violates community standards. To automate the
detection process, prior works have proposed varieties of machine learning (ML)
approaches to train Language Models (LMs) for toxic content detection. However,
both their accuracy and transferability across datasets are limited. Recently,
Large Language Models (LLMs) have shown promise in toxic content detection due
to their superior zero-shot and few-shot in-context learning ability as well as
broad transferability on ML tasks. However, efficiently designing prompts for
LLMs remains challenging. Moreover, the high run-time cost of LLMs may hinder
their deployments in production. To address these challenges, in this work, we
propose BD-LLM, a novel and efficient approach to Bootstrapping and Distilling
LLMs for toxic content detection. Specifically, we design a novel prompting
method named Decision-Tree-of-Thought (DToT) to bootstrap LLMs' detection
performance and extract high-quality rationales. DToT can automatically select
more fine-grained context to re-prompt LLMs when their responses lack
confidence. Additionally, we use the rationales extracted via DToT to fine-tune
student LMs. Our experimental results on various datasets demonstrate that DToT
can improve the accuracy of LLMs by up to 4.6%. Furthermore, student LMs
fine-tuned with rationales extracted via DToT outperform baselines on all
datasets with up to 16.9\% accuracy improvement, while being more than 60x
smaller than conventional LLMs. Finally, we observe that student LMs fine-tuned
with rationales exhibit better cross-dataset transferability.
- Abstract(参考訳): 有害なコンテンツ検出は、オンラインサービスがコミュニティ標準に違反する不適切なコンテンツを削除するために不可欠である。
検出プロセスを自動化するために、従来の研究では有害なコンテンツ検出のための言語モデル(LM)を訓練するための機械学習(ML)アプローチが提案されている。
しかし、データセット間の精度と転送性には制限がある。
近年、Large Language Models (LLMs) は、優れたゼロショットと少数ショットのインコンテキスト学習能力とMLタスクの広範な転送性により、有害なコンテンツ検出の可能性を示している。
しかし、LLMのプロンプトを効率的に設計することは依然として困難である。
さらに、LLMの高ランタイムコストは、本番環境におけるデプロイメントを妨げる可能性がある。
これらの課題に対処するため,本研究では,有害なコンテンツ検出のためのブートストラップおよび蒸留LLMの新規かつ効率的なアプローチであるBD-LLMを提案する。
具体的には,LLMの検出性能をブートストラップし,高品質な論理式を抽出する,DTOT(Decision-Tree-of-Thought)と呼ばれる新しいプロンプトを設計する。
DToTは、よりきめ細かなコンテキストを自動選択して、応答に自信がない場合に再起動する。
さらに,dtotで抽出した理論を用いて学生lmsを微調整する。
各種データセットに対する実験結果から,DToTはLLMの精度を最大4.6%向上できることが示された。
さらに、DToTによって抽出された有理性で微調整された学生LMは、従来のLLMの60倍以上の精度で16.9倍の精度で全てのデータセットのベースラインを上回ります。
最後に,合理性で微調整された学生lmsが,より優れたクロスデータセット転送性を示すことを観察した。
関連論文リスト
- Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。
GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。