論文の概要: Automatically Auditing Large Language Models via Discrete Optimization
- arxiv url: http://arxiv.org/abs/2303.04381v1
- Date: Wed, 8 Mar 2023 05:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 14:59:57.413897
- Title: Automatically Auditing Large Language Models via Discrete Optimization
- Title(参考訳): 離散最適化による大規模言語モデルの自動監査
- Authors: Erik Jones, Anca Dragan, Aditi Raghunathan, Jacob Steinhardt
- Abstract要約: 予期せぬ行動のための大規模な言語モデルは、破滅的な展開を先延ばしする必要がある。
本研究では,オーディションを最適化問題とみなし,所望の目標動作に適合する入出力ペアを自動的に検索する。
この最適化問題は、実現可能な点の集合がスパースであり、空間は離散であり、監査する言語モデルは非線形かつ高次元であるため、解決が難しい。
- 参考スコア(独自算出の注目度): 26.618062770225798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auditing large language models for unexpected behaviors is critical to
preempt catastrophic deployments, yet remains challenging. In this work, we
cast auditing as an optimization problem, where we automatically search for
input-output pairs that match a desired target behavior. For example, we might
aim to find a non-toxic input that starts with "Barack Obama" that a model maps
to a toxic output. This optimization problem is difficult to solve as the set
of feasible points is sparse, the space is discrete, and the language models we
audit are non-linear and high-dimensional. To combat these challenges, we
introduce a discrete optimization algorithm, ARCA, that jointly and efficiently
optimizes over inputs and outputs. Our approach automatically uncovers
derogatory completions about celebrities (e.g. "Barack Obama is a legalized
unborn" -> "child murderer"), produces French inputs that complete to English
outputs, and finds inputs that generate a specific name. Our work offers a
promising new tool to uncover models' failure-modes before deployment.
- Abstract(参考訳): 予期せぬ振る舞いに対する大きな言語モデル監査は、破滅的なデプロイメントを先延ばしする上で重要だが、依然として難しい。
本研究では,目標行動に適合する入出力ペアを自動検索する最適化問題として,監査手法を適用した。
例えば、モデルが有毒なアウトプットにマップする"バラック・オバマ"から始まる、非有毒なインプットを見つけることを目指しています。
この最適化問題は、実現可能な点の集合がスパースであり、空間は離散であり、監査する言語モデルは非線形かつ高次元であるため、解決が難しい。
これらの課題に対処するために、入力と出力を協調的に効率的に最適化する離散最適化アルゴリズムARCAを導入する。
我々のアプローチは、有名人に関する軽蔑的な完成(例:「バラック・オバマは合法化された未成年者」→「児童殺人者」)を自動的に発見し、英語のアウトプットに完成するフランス語のインプットを生成し、特定の名前を生成するインプットを見つける。
私たちの仕事は、デプロイ前にモデルの障害モードを明らかにするための有望な新しいツールを提供します。
関連論文リスト
- Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping [60.458273797431836]
対照的なレイヤ(DoLa)によるデコーディングは、大規模言語モデルの生成品質を改善するために設計されている。
このアプローチは英語以外のタスクではうまくいきません。
モデルの前方通過における言語遷移に関する従来の解釈可能性の研究から着想を得て,改良されたコントラスト復号アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-15T15:14:01Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Model Ensembling for Constrained Optimization [7.4351710906830375]
下流最適化に使用される多次元出力予測のためのモデルを組み立てたいという設定について検討する。
より正確には、状態空間を多次元実数値予測にマッピングする多くのモデルが与えられていると想像する。
これらの予測は、指定された制約の下で最適化したい線形対象の係数を形成する。
証明可能かつ収束性の高い2つのアルゴリズムに導かれる多重校正手法を適用した。
論文 参考訳(メタデータ) (2024-05-27T01:48:07Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Model Inversion Networks for Model-Based Optimization [110.24531801773392]
スコアから入力への逆写像を学習するモデル反転ネットワーク(MIN)を提案する。
MINは高次元の入力空間にスケールでき、コンテキスト最適化と非コンテキスト最適化の両方にオフラインログデータを利用する。
我々は,ベイズ最適化の文献から,画像やタンパク質の設計に対する高次元モデルベース最適化問題,ログデータからのコンテキスト的帯域最適化といったタスクのMINを評価した。
論文 参考訳(メタデータ) (2019-12-31T18:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。