論文の概要: Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models
- arxiv url: http://arxiv.org/abs/2412.06748v1
- Date: Mon, 09 Dec 2024 18:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:43.243329
- Title: Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models
- Title(参考訳): Refusal Tokens: 大規模な言語モデルにおけるRefusalsの校正方法
- Authors: Neel Jain, Aditya Shrivastava, Chenyang Zhu, Daben Liu, Alfy Samuel, Ashwinee Panda, Anoop Kumar, Micah Goldblum, Tom Goldstein,
- Abstract要約: 安全で信頼性の高い言語モデルを構築する上で重要な要素は、モデルが特定の質問に答えることを適切に拒否することである。
本稿では,学習中のモデルの応答に先立って,各拒絶カテゴリに対する1つのそのようなトークン,あるいは1つの拒絶トークンを提案する。
- 参考スコア(独自算出の注目度): 67.6909704128702
- License:
- Abstract: A key component of building safe and reliable language models is enabling the models to appropriately refuse to follow certain instructions or answer certain questions. We may want models to output refusal messages for various categories of user queries, for example, ill-posed questions, instructions for committing illegal acts, or queries which require information past the model's knowledge horizon. Engineering models that refuse to answer such questions is complicated by the fact that an individual may want their model to exhibit varying levels of sensitivity for refusing queries of various categories, and different users may want different refusal rates. The current default approach involves training multiple models with varying proportions of refusal messages from each category to achieve the desired refusal rates, which is computationally expensive and may require training a new model to accommodate each user's desired preference over refusal rates. To address these challenges, we propose refusal tokens, one such token for each refusal category or a single refusal token, which are prepended to the model's responses during training. We then show how to increase or decrease the probability of generating the refusal token for each category during inference to steer the model's refusal behavior. Refusal tokens enable controlling a single model's refusal rates without the need of any further fine-tuning, but only by selectively intervening during generation.
- Abstract(参考訳): 安全で信頼性の高い言語モデルを構築する上で重要な要素は、モデルが特定の命令に従うことを適切に拒否したり、特定の質問に答えたりすることを可能にすることである。
例えば、不適切な質問、違法行為の指示、モデルの知識の地平を越えて情報を必要とするクエリなどです。
このような疑問に答えないエンジニアリングモデルは、個人が様々なカテゴリのクエリを再利用するための様々なレベルの感度をモデルに求め、異なるユーザーが異なる拒絶率を求めるという事実によって複雑である。
現在のデフォルトのアプローチでは、希望する拒絶率を達成するために、各カテゴリからの拒絶メッセージの割合が異なる複数のモデルをトレーニングする。
これらの課題に対処するために、各拒絶カテゴリに対する1つのそのようなトークンである拒絶トークンや、トレーニング中のモデルの応答に前向きな1つの拒絶トークンを提案する。
次に、モデルの拒絶行動を判断するために、各カテゴリの拒絶トークンを生成する確率を増大または減少させる方法を示す。
拒否トークンは、追加の微調整を必要とせずに単一のモデルの拒否率を制御することができるが、生成中に選択的に介入するだけでよい。
関連論文リスト
- Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation [29.605302471407537]
言語モデルを有用かつ無害にトレーニングするには、拒否行動の慎重な校正が必要である。
本稿では,単一ベクトルアブレーションによる言語モデルにおける偽の拒絶を緩和するための簡易かつ外科的手法を提案する。
提案手法はトレーニング不要で,モデルに依存しないため,現在および将来の言語モデルにおける誤認の軽減に有効である。
論文 参考訳(メタデータ) (2024-10-04T13:25:32Z) - The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z) - Earning Extra Performance from Restrictive Feedbacks [41.05874087063763]
モデルチューニング問題の形式を記述するために,rerestriCTive feeddbacks (EXPECTED) から emphEarning eXtra PerformancE という課題を設定した。
モデルプロバイダの目標は、最終的にフィードバックを利用することで、ローカルユーザに対して満足のいくモデルを提供することです。
本稿では,パラメータ分布を探索し,モデルパラメータに関するモデル性能の幾何を特徴付けることを提案する。
論文 参考訳(メタデータ) (2023-04-28T13:16:54Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Explaining Reject Options of Learning Vector Quantization Classifiers [6.125017875330933]
本稿では,機械学習モデルにおけるリジェクトの説明に反事実的説明を用いることを提案する。
重要なモデルのクラスに対して、異なる拒絶オプションの反実的説明を効率的に計算する方法を検討する。
論文 参考訳(メタデータ) (2022-02-15T08:16:10Z) - Noisy Channel Language Model Prompting for Few-Shot Text Classification [87.23056864536613]
数ショットのテキスト分類において,言語モデルに対してノイズの多いチャネルアプローチを導入する。
入力されたラベルの確率を計算する代わりに、チャネルモデルはラベルが与えられた入力の条件確率を計算する。
我々は最近提案された数発の学習手法にチャネルモデルを使用し、言語モデルパラメータの更新は、あるいは、非常に限られている。
論文 参考訳(メタデータ) (2021-08-09T15:06:26Z) - Selecting Diverse Models for Scientific Insight [0.12891210250935145]
異なるペナルティ設定が、異なるモデルにおける係数の縮小またはスパーシティを促進するかを示す。
変分を強制するペナルティフォームの選択は、鋼合金組成から積層欠陥エネルギーを予測するために適用される。
論文 参考訳(メタデータ) (2020-06-16T14:06:55Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。