論文の概要: Refusal Behavior in Large Language Models: A Nonlinear Perspective
- arxiv url: http://arxiv.org/abs/2501.08145v1
- Date: Tue, 14 Jan 2025 14:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:13.168680
- Title: Refusal Behavior in Large Language Models: A Nonlinear Perspective
- Title(参考訳): 大規模言語モデルにおける拒絶行動:非線形視点
- Authors: Fabian Hildebrandt, Andreas Maier, Patrick Krauss, Achim Schilling,
- Abstract要約: 大きな言語モデル(LLM)における拒絶行動は、有害、非倫理的、不適切なプロンプトに対する反応を減少させる。
本稿では,3つの建築家族の6つのLLMにおける拒絶行動について検討する。
- 参考スコア(独自算出の注目度): 2.979183050755201
- License:
- Abstract: Refusal behavior in large language models (LLMs) enables them to decline responding to harmful, unethical, or inappropriate prompts, ensuring alignment with ethical standards. This paper investigates refusal behavior across six LLMs from three architectural families. We challenge the assumption of refusal as a linear phenomenon by employing dimensionality reduction techniques, including PCA, t-SNE, and UMAP. Our results reveal that refusal mechanisms exhibit nonlinear, multidimensional characteristics that vary by model architecture and layer. These findings highlight the need for nonlinear interpretability to improve alignment research and inform safer AI deployment strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)における拒絶行動は、有害、非倫理的、不適切なプロンプトに対する応答を減少させ、倫理的基準に適合させることを可能にしている。
本稿では,3つの建築家族の6つのLLMにおける拒絶行動について検討する。
我々はPCA, t-SNE, UMAPなどの次元削減技術を用いて, 線形現象としての拒絶の仮定に挑戦する。
その結果, モデル構造や層によって異なる非線形多次元特性を示すリファリング機構が明らかとなった。
これらの知見は、アライメント研究を改善し、より安全なAIデプロイメント戦略を通知するための非線形解釈可能性の必要性を強調している。
関連論文リスト
- Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。
我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-02-16T23:13:55Z) - Adversarial Dependence Minimization [78.36795688238155]
この研究は、線形対のデコリレーションを超越した依存最小化のための微分可能でスケーラブルなアルゴリズムを提供する。
我々は,PCAを非線形デコリレーションに拡張し,画像分類法の一般化を改良し,自己教師あり表現学習における次元的崩壊を防止する3つのアプリケーションでその実用性を実証する。
論文 参考訳(メタデータ) (2025-02-05T14:43:40Z) - Visual Error Patterns in Multi-Modal AI: A Statistical Approach [0.0]
MLLM(Multi-modal large language model)は、テキストと視覚データの統合に優れるが、曖昧さや不完全な視覚刺激を解釈する際に体系的な課題に直面する。
本研究では3D、回転、顔と面の欠如といった特徴を特徴とする幾何的刺激のデータセットを用いて、統計モデルを用いてこれらの誤差を駆動する要因を分析する。
論文 参考訳(メタデータ) (2024-11-27T01:20:08Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Layered Models can "Automatically" Regularize and Discover Low-Dimensional Structures via Feature Learning [6.109362130047454]
入力が線形変換を行い、次に非線形写像によって出力を予測する2層非パラメトリック回帰モデルについて検討する。
2層モデルが正規化を「自動的に」誘導し,特徴学習を容易にすることを示す。
論文 参考訳(メタデータ) (2023-10-18T06:15:35Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Learning Nonlinear Projections for Reduced-Order Modeling of Dynamical
Systems using Constrained Autoencoders [0.0]
制約付き自己エンコーダニューラルネットワークによって記述された非線形射影のクラスを導入し,データから多様体と射影繊維の両方を学習する。
我々のアーキテクチャでは、エンコーダがデコーダの左逆であることを保証するために、可逆的アクティベーション関数と生物直交重み行列を用いる。
また,高速なダイナミックスと非正規性を考慮した斜め射影ファイバの学習を促進するために,新しいダイナミックス対応コスト関数を導入する。
論文 参考訳(メタデータ) (2023-07-28T04:01:48Z) - XAI-TRIS: Non-linear image benchmarks to quantify false positive
post-hoc attribution of feature importance [1.3958169829527285]
形式的な基盤の欠如は、与えられた XAI 法の結果からどの結論を安全に導き出すことができるのかがはっきりしない。
これは、一般的にディープニューラルネットワークによって解決される非線形問題に挑戦するが、現在は適切な治療法が欠如していることを意味する。
我々は,一般的なXAI手法が,ランダムな性能基準やエッジ検出方法よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2023-06-22T11:31:11Z) - Learning Reduced Nonlinear State-Space Models: an Output-Error Based
Canonical Approach [8.029702645528412]
非線形挙動を持つ動的システムのモデリングにおけるディープラーニングの有効性について検討する。
3つの非線形系を同定する能力を示す。
シミュレーションで生成したテストデータと,無人航空機飛行計測の現実的データセットを用いて,オープンループ予測の評価を行った。
論文 参考訳(メタデータ) (2022-04-19T06:33:23Z) - Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T14:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。