論文の概要: Automatically Auditing Large Language Models via Discrete Optimization
- arxiv url: http://arxiv.org/abs/2303.04381v1
- Date: Wed, 8 Mar 2023 05:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 14:59:57.413897
- Title: Automatically Auditing Large Language Models via Discrete Optimization
- Title(参考訳): 離散最適化による大規模言語モデルの自動監査
- Authors: Erik Jones, Anca Dragan, Aditi Raghunathan, Jacob Steinhardt
- Abstract要約: 予期せぬ行動のための大規模な言語モデルは、破滅的な展開を先延ばしする必要がある。
本研究では,オーディションを最適化問題とみなし,所望の目標動作に適合する入出力ペアを自動的に検索する。
この最適化問題は、実現可能な点の集合がスパースであり、空間は離散であり、監査する言語モデルは非線形かつ高次元であるため、解決が難しい。
- 参考スコア(独自算出の注目度): 26.618062770225798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auditing large language models for unexpected behaviors is critical to
preempt catastrophic deployments, yet remains challenging. In this work, we
cast auditing as an optimization problem, where we automatically search for
input-output pairs that match a desired target behavior. For example, we might
aim to find a non-toxic input that starts with "Barack Obama" that a model maps
to a toxic output. This optimization problem is difficult to solve as the set
of feasible points is sparse, the space is discrete, and the language models we
audit are non-linear and high-dimensional. To combat these challenges, we
introduce a discrete optimization algorithm, ARCA, that jointly and efficiently
optimizes over inputs and outputs. Our approach automatically uncovers
derogatory completions about celebrities (e.g. "Barack Obama is a legalized
unborn" -> "child murderer"), produces French inputs that complete to English
outputs, and finds inputs that generate a specific name. Our work offers a
promising new tool to uncover models' failure-modes before deployment.
- Abstract(参考訳): 予期せぬ振る舞いに対する大きな言語モデル監査は、破滅的なデプロイメントを先延ばしする上で重要だが、依然として難しい。
本研究では,目標行動に適合する入出力ペアを自動検索する最適化問題として,監査手法を適用した。
例えば、モデルが有毒なアウトプットにマップする"バラック・オバマ"から始まる、非有毒なインプットを見つけることを目指しています。
この最適化問題は、実現可能な点の集合がスパースであり、空間は離散であり、監査する言語モデルは非線形かつ高次元であるため、解決が難しい。
これらの課題に対処するために、入力と出力を協調的に効率的に最適化する離散最適化アルゴリズムARCAを導入する。
我々のアプローチは、有名人に関する軽蔑的な完成(例:「バラック・オバマは合法化された未成年者」→「児童殺人者」)を自動的に発見し、英語のアウトプットに完成するフランス語のインプットを生成し、特定の名前を生成するインプットを見つける。
私たちの仕事は、デプロイ前にモデルの障害モードを明らかにするための有望な新しいツールを提供します。
関連論文リスト
- Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z) - Model Inversion Networks for Model-Based Optimization [110.24531801773392]
スコアから入力への逆写像を学習するモデル反転ネットワーク(MIN)を提案する。
MINは高次元の入力空間にスケールでき、コンテキスト最適化と非コンテキスト最適化の両方にオフラインログデータを利用する。
我々は,ベイズ最適化の文献から,画像やタンパク質の設計に対する高次元モデルベース最適化問題,ログデータからのコンテキスト的帯域最適化といったタスクのMINを評価した。
論文 参考訳(メタデータ) (2019-12-31T18:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。