論文の概要: Teaching Models to Understand (but not Generate) High-risk Data
- arxiv url: http://arxiv.org/abs/2505.03052v1
- Date: Mon, 05 May 2025 22:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.139513
- Title: Teaching Models to Understand (but not Generate) High-risk Data
- Title(参考訳): 高リスクデータを理解するためのモデル(ただし生成しない)
- Authors: Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia,
- Abstract要約: SLUNG(Selective Loss to Understand but not Generate)を紹介する。
SLUNGは、モデルが高リスクデータを生成せずに理解することを学ぶための事前学習パラダイムである。
SLUNGは、生成を増大させることなく、モデルによる高リスクデータの理解を一貫して改善することを示す。
- 参考スコア(独自算出の注目度): 38.30599229474598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model developers typically filter out high-risk content -- such as toxic or copyrighted text -- from their pre-training data to prevent models from generating similar outputs. However, removing such data altogether limits models' ability to recognize and appropriately respond to harmful or sensitive content. In this paper, we introduce Selective Loss to Understand but Not Generate (SLUNG), a pre-training paradigm through which models learn to understand high-risk data without learning to generate it. Instead of uniformly applying the next-token prediction loss, SLUNG selectively avoids incentivizing the generation of high-risk tokens while ensuring they remain within the model's context window. As the model learns to predict low-risk tokens that follow high-risk ones, it is forced to understand the high-risk content. Through our experiments, we show that SLUNG consistently improves models' understanding of high-risk data (e.g., ability to recognize toxic content) without increasing its generation (e.g., toxicity of model responses). Overall, our SLUNG paradigm enables models to benefit from high-risk text that would otherwise be filtered out.
- Abstract(参考訳): 言語モデル開発者は一般的に、有害なテキストや著作権のあるテキストなどのリスクの高いコンテンツを事前学習データからフィルタリングすることで、モデルが同様の出力を生成するのを防ぐ。
しかし、そのようなデータを削除することは、有害または機密性の高いコンテンツを認識し、適切に応答するモデルの能力を完全に制限する。
本稿では,SLUNG(Selective Loss to Understand but Not Generate)について紹介する。
次世代の予測損失を均一に適用する代わりに、SLUNGは高リスクトークンの生成のインセンティブを選択的に回避し、モデルのコンテキストウィンドウ内に留まることを保証する。
モデルがハイリスクなトークンに従う低リスクなトークンを予測することを学ぶと、ハイリスクなコンテンツを理解することを余儀なくされる。
実験により、SLUNGは生成量(例えば、モデル応答の毒性)を増大させることなく、高リスクデータ(例えば、有害な内容を認識する能力)の理解を一貫して改善することを示した。
全体として、私たちのSLUNGパラダイムは、他の方法でフィルタリングされる高リスクテキストの恩恵をモデルが受けられるようにします。
関連論文リスト
- Breaking the Gold Standard: Extracting Forgotten Data under Exact Unlearning in Large Language Models [26.5039481643457]
我々は、さらに正確な未学習を損なう新しいデータ抽出攻撃を導入する。
模擬診断データセット上での攻撃の有効性を実証する。
論文 参考訳(メタデータ) (2025-05-30T09:09:33Z) - Risk-aware Direct Preference Optimization under Nested Risk Measure [23.336246526648374]
Ra-DPO(Ra-Aware Direct Preference Optimization)は、ネストしたリスク対策を取り入れた新しいアプローチである。
3つのオープンソースデータセットに対する実験結果は、アライメント性能とモデルドリフトのバランスをとる上で、提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-26T08:01:37Z) - Uncertainty-Aware Decoding with Minimum Bayes Risk [70.6645260214115]
予測されたリスクに応じてモデル生成を選択する最小ベイズリスク復号法を,原理化された不確実性認識復号法に一般化する方法を示す。
この修正された予測リスクは、出力の選択と生成をいつ中止するかの判断の両方に有用であり、オーバーヘッドを発生させることなく改善を提供できることを示す。
論文 参考訳(メタデータ) (2025-03-07T10:55:12Z) - On the Privacy Risk of In-context Learning [36.633860818454984]
我々は、プロンプトモデルがプロンプト内で使用されるデータに対して、重大なプライバシーリスクを示すことを示した。
また、トリガーモデルのプライバシリスクが、同じユーティリティレベルで微調整されたモデルを超えることも観察します。
論文 参考訳(メタデータ) (2024-11-15T17:11:42Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - Mutual Information Alleviates Hallucinations in Abstractive
Summarization [73.48162198041884]
モデルが生成中の幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高いという単純な基準を見いだす。
この発見は幻覚の潜在的な説明を提供する:モデルは、継続について不確実な場合には、高い限界確率のテキストを好むことをデフォルトとする。
そこで本研究では,ターゲットトークンの正当性ではなく,ソースとターゲットトークンのポイントワイドな相互情報の最適化に切り替える復号手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T13:30:54Z) - Optimizing the Performative Risk under Weak Convexity Assumptions [0.0]
性能予測において、予測モデルは将来のデータを生成する分布に影響を与える。
これまでの研究では、損失に関する一般的な条件とモデルパラメータから分布へのマッピングが特定されており、凸性はパフォーマンスリスクを意味する。
本稿では,反復最適化法における性能最小化リスク問題の回避性を犠牲にすることなく,これらの仮定を緩和する。
論文 参考訳(メタデータ) (2022-09-02T01:07:09Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。