論文の概要: Characterising Toxicity in Generative Large Language Models
- arxiv url: http://arxiv.org/abs/2601.06700v1
- Date: Sat, 10 Jan 2026 21:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.943516
- Title: Characterising Toxicity in Generative Large Language Models
- Title(参考訳): 生成型大規模言語モデルにおける毒性の特徴付け
- Authors: Zhiyao Zhang, Yazan Mash'Al, Yuhan Wu,
- Abstract要約: 本稿では, 言語モデル (LM) が誘導されたとき, 有害な内容を生成する程度について検討する。
また、生成モデルにおけるそのようなアウトプットの生成に影響を与える言語的要因(語彙的および構文的の両方)についても検討している。
- 参考スコア(独自算出の注目度): 4.508212629938645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the advent of the attention mechanism has significantly advanced the field of natural language processing (NLP), revolutionizing text processing and text generation. This has come about through transformer-based decoder-only architectures, which have become ubiquitous in NLP due to their impressive text processing and generation capabilities. Despite these breakthroughs, language models (LMs) remain susceptible to generating undesired outputs: inappropriate, offensive, or otherwise harmful responses. We will collectively refer to these as ``toxic'' outputs. Although methods like reinforcement learning from human feedback (RLHF) have been developed to align model outputs with human values, these safeguards can often be circumvented through carefully crafted prompts. Therefore, this paper examines the extent to which LLMs generate toxic content when prompted, as well as the linguistic factors -- both lexical and syntactic -- that influence the production of such outputs in generative models.
- Abstract(参考訳): 近年、注意機構の出現は自然言語処理(NLP)の分野を大きく進歩させ、テキスト処理とテキスト生成に革命をもたらした。
これはトランスフォーマーベースのデコーダのみのアーキテクチャによって実現されている。
これらのブレークスルーにもかかわらず、言語モデル(LM)は、望ましくないアウトプット(不適切、攻撃的、その他の有害な応答)を発生させる可能性がある。
これをまとめて ``toxic' 出力と呼ぶ。
人間のフィードバックからの強化学習(RLHF)のような手法は、モデル出力を人間の価値観と整合させるために開発されているが、これらのセーフガードは、慎重に作られたプロンプトによって回避されることが多い。
そこで本研究では,LLMが誘導されると有害物質が生成する範囲と,その生成モデルにおける生産に影響を及ぼす言語的要因(語彙的・構文的要因)について検討する。
関連論文リスト
- Thinking Before Constraining: A Unified Decoding Framework for Large Language Models [1.2468700211588883]
自然生成と構造生成の両方の利点を組み合わせた簡単なアプローチを提案する。
提案手法は,構造化された出力の信頼性を確保しつつ,自然言語推論の表現力を維持する。
論文 参考訳(メタデータ) (2026-01-12T13:25:28Z) - SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation [55.61004653386632]
LLM(Large Language Models)は、しばしば幻覚(幻覚)を生成する。
本稿では,不信なサンプルのトレーニングセットを生成するための,新たな自己指導手法を提案する。
そしてトレーニングプロセスを使ってモデルを洗練し、不信なものよりも基礎的なアウトプットの生成を奨励します。
論文 参考訳(メタデータ) (2025-02-19T12:31:58Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Joint Repetition Suppression and Content Moderation of Large Language
Models [4.9990392459395725]
自然言語生成(NLG)は、NLPにおいて最も影響力のある分野の一つである。
本稿では,トークンとシーケンスレベルを用いた非実効的繰り返し抑制に適用する。
また,攻撃的な単語の生成を避けるために,モデルに協調的に支援するために,違和感のある学習目標の枠組みについても検討する。
論文 参考訳(メタデータ) (2023-04-20T19:17:49Z) - Lexically-constrained Text Generation through Commonsense Knowledge
Extraction and Injection [62.071938098215085]
我々は、ある入力概念のセットに対して妥当な文を生成することを目的としているcommongenベンチマークに焦点を当てる。
生成したテキストの意味的正しさを高めるための戦略を提案する。
論文 参考訳(メタデータ) (2020-12-19T23:23:40Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。