論文の概要: Out-of-Distribution Detection and Selective Generation for Conditional
Language Models
- arxiv url: http://arxiv.org/abs/2209.15558v1
- Date: Fri, 30 Sep 2022 16:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:23:33.593825
- Title: Out-of-Distribution Detection and Selective Generation for Conditional
Language Models
- Title(参考訳): 条件付き言語モデルにおける分布外検出と選択生成
- Authors: Jie Ren, Jiaming Luo, Yao Zhao, Kundan Krishna, Mohammad Saleh, Balaji
Lakshminarayanan, Peter J. Liu
- Abstract要約: 条件付き言語モデル(CLM)は、出力シーケンスで次のトークンを分類するために主に訓練される。
CLMの高精度かつ軽量なOOD検出法を提案する。
提案手法は,高品質な出力を選択的に生成するために,分布シフトの一般的かつ現実的な設定の下でどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 40.15896981028647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning algorithms typically assume independent and identically
distributed samples in training and at test time. Much work has shown that
high-performing ML classifiers can degrade significantly and provide
overly-confident, wrong classification predictions, particularly for
out-of-distribution (OOD) inputs. Conditional language models (CLMs) are
predominantly trained to classify the next token in an output sequence, and may
suffer even worse degradation on OOD inputs as the prediction is done
auto-regressively over many steps. Furthermore, the space of potential
low-quality outputs is larger as arbitrary text can be generated and it is
important to know when to trust the generated output. We present a highly
accurate and lightweight OOD detection method for CLMs, and demonstrate its
effectiveness on abstractive summarization and translation. We also show how
our method can be used under the common and realistic setting of distribution
shift for selective generation (analogous to selective prediction for
classification) of high-quality outputs, while automatically abstaining from
low-quality ones, enabling safer deployment of generative language models.
- Abstract(参考訳): 機械学習アルゴリズムは通常、トレーニング時とテスト時に独立して同じ分散サンプルを仮定する。
多くの研究により、高パフォーマンスml分類器は著しく劣化し、特にout-of-distribution (ood) 入力に対して、過度に信頼度が高く誤った分類予測を提供できることが示されている。
条件付き言語モデル(CLM)は、出力シーケンスで次のトークンを分類するために主に訓練されており、予測が多くのステップで自動回帰的に実行されるため、OOD入力がさらに悪化する可能性がある。
さらに、任意のテキストを生成することができるため、潜在的な低品質出力の空間は大きくなるため、いつ生成した出力を信頼するかを知ることが重要である。
本稿では,clmの高精度で軽量なood検出法を提案するとともに,要約と翻訳におけるその効果を示す。
また,高品質出力の選択的生成(分類の選択的予測)のための分布シフトの共通かつ現実的な設定下での利用方法を示すとともに,低品質出力から自動的に回避し,より安全な生成言語モデルの展開を可能にする。
関連論文リスト
- Learnable Linguistic Watermarks for Tracing Model Extraction Attacks on Large Language Models [20.44680783275184]
モデル抽出攻撃に対する現在の透かし技術は、モデルロジットの信号挿入や生成されたテキストの後処理に依存している。
大規模言語モデル(LLM)に学習可能な言語透かしを埋め込む新しい手法を提案する。
制御ノイズをトークン周波数分布に導入し,統計的に識別可能な透かしを埋め込むことにより,LLMの出力分布を微調整する。
論文 参考訳(メタデータ) (2024-04-28T14:45:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Calibrating Sequence likelihood Improves Conditional Language Generation [39.35161650538767]
条件言語モデルは主に最大推定(MLE)を用いて訓練される
MLEの訓練されたモデルは、文脈が与えられた場合、高い確率を可算列に割り当てるが、モデル確率は、品質によって正確なランク順生成列を割り当てないことが多い。
本稿では,モデルの潜在空間における参照シーケンスとの整合性を高めるために,モデル生成シーケンスのキャリブレーションを行うSLiC(Sequence chance calibration)を提案する。
論文 参考訳(メタデータ) (2022-09-30T19:16:16Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Energy-bounded Learning for Robust Models of Code [16.592638312365164]
プログラミングでは、コード表現の学習には、コード分類、コード検索、コメント生成、バグ予測など、さまざまなアプリケーションがある。
本稿では,ソースコードモデルのトレーニングプロセスにこれらのアウト・オブ・ディストリビューション・サンプルを組み込むため,エネルギー境界学習目標関数を用いて,イン・ディストリビューション・サンプルにより高いスコアを割り当て,アウト・オブ・ディストリビューション・サンプルに低いスコアを割り当てることを提案する。
論文 参考訳(メタデータ) (2021-12-20T06:28:56Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。