論文の概要: Rethinking harmless refusals when fine-tuning foundation models
- arxiv url: http://arxiv.org/abs/2406.19552v1
- Date: Thu, 27 Jun 2024 22:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:22:04.912314
- Title: Rethinking harmless refusals when fine-tuning foundation models
- Title(参考訳): 微調整基礎モデルにおける無害拒絶の再考
- Authors: Florin Pop, Judd Rosenblatt, Diogo Schwerz de Lucena, Michael Vaiana,
- Abstract要約: 本研究では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に緩和する程度について検討する。
ここでは、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を損なうような倫理的推論トレースを生成するかのどちらかである。
- 参考スコア(独自算出の注目度): 0.8571111167616167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the degree to which fine-tuning in Large Language Models (LLMs) effectively mitigates versus merely conceals undesirable behavior. Through the lens of semi-realistic role-playing exercises designed to elicit such behaviors, we explore the response dynamics of LLMs post fine-tuning interventions. Our methodology involves prompting models for Chain-of-Thought (CoT) reasoning and analyzing the coherence between the reasoning traces and the resultant outputs. Notably, we identify a pervasive phenomenon we term \emph{reason-based deception}, where models either stop producing reasoning traces or produce seemingly ethical reasoning traces that belie the unethical nature of their final outputs. We further examine the efficacy of response strategies (polite refusal versus explicit rebuttal) in curbing the occurrence of undesired behavior in subsequent outputs of multi-turn interactions. Our findings reveal that explicit rebuttals significantly outperform polite refusals in preventing the continuation of undesired outputs and nearly eliminate reason-based deception, challenging current practices in model fine-tuning. Accordingly, the two key contributions of this paper are (1) defining and studying reason-based deception, a new type of hidden behavior, and (2) demonstrating that rebuttals provide a more robust response model to harmful requests than refusals, thereby highlighting the need to reconsider the response strategies in fine-tuning approaches.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に軽減する方法について検討する。
このような動作を誘発する半現実的なロールプレイング演習のレンズを通して, 微調整後のLSMの応答ダイナミクスについて検討する。
提案手法では,CoT(Chain-of-Thought)推論モデルの作成と,推論トレースと結果出力のコヒーレンス解析を行う。
特に、我々は「emph{reason-based deception(emph{reason-based deception)」と呼び、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を満たすように倫理的な推論トレースを生成する。
さらに,マルチターンインタラクションの出力における望ましくない動作の発生を抑制するための応答戦略(政治的拒絶対明示的反感)の有効性について検討した。
以上の結果から, 明示的な反感は, 望ましくない出力の継続を防ぎ, 理性に基づく騙しをほとんど排除し, モデル微調整における現在の実践に挑戦する上で, 丁寧な拒絶を著しく上回っていることが明らかとなった。
そこで,本論文の主な貢献は,(1)新しい種類の隠蔽行動である理性に基づく騙しを定義し,研究すること,(2)反証が拒絶よりも有害な要求に対してより堅牢な応答モデルを提供することを示すこと,そして,微調整アプローチにおける応答戦略の再考の必要性を明らかにすることである。
関連論文リスト
- Preemptive Answer "Attacks" on Chain-of-Thought Reasoning [7.233752893356647]
大きな言語モデル(LLM)は、Chain-of-Thoughtプロンプトと組み合わせることで、印象的な推論機能を示す。
本稿では, LLMが推論に係わる前に解答を得る, プリエンプティブな解答という新しいシナリオを紹介する。
実験により、プリエンプティブな回答は、さまざまなCoTメソッドと幅広いデータセットにわたるモデルの推論能力を著しく損なうことが明らかになった。
論文 参考訳(メタデータ) (2024-05-31T15:15:04Z) - Estimating the Causal Effects of Natural Logic Features in Transformer-Based NLI Models [16.328341121232484]
文脈介入の効果を測定するために因果効果推定手法を適用した。
本研究はトランスフォーマーの無関係な変化に対する堅牢性と影響の高い変化に対する感受性について検討する。
論文 参考訳(メタデータ) (2024-04-03T10:22:35Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Analyzing Semantic Faithfulness of Language Models via Input
Intervention on Question Answering [4.799822253865053]
本研究では,意味的忠実性の概念を定式化し,テキストの意味的内容が質問応答におけるモデルの推論を因果的に判断する。
削除介入と否定介入という2つのセマンティック介入を実行すると、トランスフォーマーモデルは意味的に忠実でないことが示される。
本稿では,削除介入に対する望ましくない効果を,かなりのマージンで軽減できる介入ベーストレーニング体制を提案する。
論文 参考訳(メタデータ) (2022-12-21T00:00:01Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Towards Interpretable Reasoning over Paragraph Effects in Situation [126.65672196760345]
我々は,原因と効果を理解するためのモデルを必要とする状況において,段落効果を推論する作業に焦点をあてる。
本稿では,ニューラルネットワークモジュールを用いた推論プロセスの各ステップを明示的にモデル化する逐次的手法を提案する。
特に、5つの推論モジュールはエンドツーエンドで設計され、学習され、より解釈可能なモデルにつながる。
論文 参考訳(メタデータ) (2020-10-03T04:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。