Fugu-MT 論文翻訳(概要): Teaching Models to Understand (but not Generate) High-risk Data

論文の概要: Teaching Models to Understand (but not Generate) High-risk Data

arxiv url: http://arxiv.org/abs/2505.03052v1
Date: Mon, 05 May 2025 22:24:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.139513
Title: Teaching Models to Understand (but not Generate) High-risk Data
Title（参考訳）: 高リスクデータを理解するためのモデル(ただし生成しない)
Authors: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia,
Abstract要約: SLUNG(Selective Loss to Understand but not Generate)を紹介する。 SLUNGは、モデルが高リスクデータを生成せずに理解することを学ぶための事前学習パラダイムである。 SLUNGは、生成を増大させることなく、モデルによる高リスクデータの理解を一貫して改善することを示す。
参考スコア（独自算出の注目度）: 38.30599229474598
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
Abstract（参考訳）: 言語モデル開発者は一般的に、有害なテキストや著作権のあるテキストなどのリスクの高いコンテンツを事前学習データからフィルタリングすることで、モデルが同様の出力を生成するのを防ぐ。しかし、そのようなデータを削除することは、有害または機密性の高いコンテンツを認識し、適切に応答するモデルの能力を完全に制限する。本稿では,SLUNG(Selective Loss to Understand but Not Generate)について紹介する。次世代の予測損失を均一に適用する代わりに、SLUNGは高リスクトークンの生成のインセンティブを選択的に回避し、モデルのコンテキストウィンドウ内に留まることを保証する。モデルがハイリスクなトークンに従う低リスクなトークンを予測することを学ぶと、ハイリスクなコンテンツを理解することを余儀なくされる。実験により、SLUNGは生成量(例えば、モデル応答の毒性)を増大させることなく、高リスクデータ(例えば、有害な内容を認識する能力)の理解を一貫して改善することを示した。全体として、私たちのSLUNGパラダイムは、他の方法でフィルタリングされる高リスクテキストの恩恵をモデルが受けられるようにします。

論文の概要: Teaching Models to Understand (but not Generate) High-risk Data

関連論文リスト