論文の概要: Teaching Models to Understand (but not Generate) High-risk Data
- arxiv url: http://arxiv.org/abs/2505.03052v1
- Date: Mon, 05 May 2025 22:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.139513
- Title: Teaching Models to Understand (but not Generate) High-risk Data
- Title(参考訳): 高リスクデータを理解するためのモデル(ただし生成しない)
- Authors: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia,
- Abstract要約: SLUNG(Selective Loss to Understand but not Generate)を紹介する。
SLUNGは、モデルが高リスクデータを生成せずに理解することを学ぶための事前学習パラダイムである。
SLUNGは、生成を増大させることなく、モデルによる高リスクデータの理解を一貫して改善することを示す。
- 参考スコア(独自算出の注目度): 38.30599229474598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
- Abstract(参考訳): 言語モデル開発者は一般的に、有害なテキストや著作権のあるテキストなどのリスクの高いコンテンツを事前学習データからフィルタリングすることで、モデルが同様の出力を生成するのを防ぐ。
しかし、そのようなデータを削除することは、有害または機密性の高いコンテンツを認識し、適切に応答するモデルの能力を完全に制限する。
本稿では,SLUNG(Selective Loss to Understand but Not Generate)について紹介する。
次世代の予測損失を均一に適用する代わりに、SLUNGは高リスクトークンの生成のインセンティブを選択的に回避し、モデルのコンテキストウィンドウ内に留まることを保証する。
モデルがハイリスクなトークンに従う低リスクなトークンを予測することを学ぶと、ハイリスクなコンテンツを理解することを余儀なくされる。
実験により、SLUNGは生成量(例えば、モデル応答の毒性)を増大させることなく、高リスクデータ(例えば、有害な内容を認識する能力)の理解を一貫して改善することを示した。
全体として、私たちのSLUNGパラダイムは、他の方法でフィルタリングされる高リスクテキストの恩恵をモデルが受けられるようにします。
関連論文リスト
- Uncertainty-Aware Decoding with Minimum Bayes Risk [70.6645260214115]
予測されたリスクに応じてモデル生成を選択する最小ベイズリスク復号法を,原理化された不確実性認識復号法に一般化する方法を示す。
この修正された予測リスクは、出力の選択と生成をいつ中止するかの判断の両方に有用であり、オーバーヘッドを発生させることなく改善を提供できることを示す。
論文 参考訳(メタデータ) (2025-03-07T10:55:12Z) - On the Privacy Risk of In-context Learning [36.633860818454984]
我々は、プロンプトモデルがプロンプト内で使用されるデータに対して、重大なプライバシーリスクを示すことを示した。
また、トリガーモデルのプライバシリスクが、同じユーティリティレベルで微調整されたモデルを超えることも観察します。
論文 参考訳(メタデータ) (2024-11-15T17:11:42Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - Optimizing the Performative Risk under Weak Convexity Assumptions [0.0]
性能予測において、予測モデルは将来のデータを生成する分布に影響を与える。
これまでの研究では、損失に関する一般的な条件とモデルパラメータから分布へのマッピングが特定されており、凸性はパフォーマンスリスクを意味する。
本稿では,反復最適化法における性能最小化リスク問題の回避性を犠牲にすることなく,これらの仮定を緩和する。
論文 参考訳(メタデータ) (2022-09-02T01:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。