論文の概要: Distributionally Robust Recurrent Decoders with Random Network
Distillation
- arxiv url: http://arxiv.org/abs/2110.13229v1
- Date: Mon, 25 Oct 2021 19:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 09:21:10.979500
- Title: Distributionally Robust Recurrent Decoders with Random Network
Distillation
- Title(参考訳): ランダムネットワーク蒸留による分布ロバストなリカレントデコーダ
- Authors: Antonio Valerio Miceli-Barone, Alexandra Birch, Rico Sennrich
- Abstract要約: 本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
- 参考スコア(独自算出の注目度): 93.10261573696788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural machine learning models can successfully model language that is
similar to their training distribution, but they are highly susceptible to
degradation under distribution shift, which occurs in many practical
applications when processing out-of-domain (OOD) text. This has been attributed
to "shortcut learning": relying on weak correlations over arbitrary large
contexts.
We propose a method based on OOD detection with Random Network Distillation
to allow an autoregressive language model to automatically disregard OOD
context during inference, smoothly transitioning towards a less expressive but
more robust model as the data becomes more OOD while retaining its full context
capability when operating in-distribution. We apply our method to a GRU
architecture, demonstrating improvements on multiple language modeling (LM)
datasets.
- Abstract(参考訳): ニューラル機械学習モデルは、トレーニング分布に類似した言語をうまくモデル化するが、分散シフト下での劣化に非常に敏感であり、ドメイン外(ood)テキストを処理する多くの実用的なアプリケーションで発生する。
これは「ショートカット学習(shortcut learning)」、すなわち任意の大きな文脈に対する弱い相関に依存するものである。
本研究では,自己回帰型言語モデルが推論中にOODコンテキストを自動的に無視し,非表現的だがロバストなモデルへとスムーズな移行を行なえるようにするために,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を示す。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - From Distillation to Hard Negative Sampling: Making Sparse Neural IR
Models More Effective [15.542082655342476]
スパース拡張ベースのレトリバーであるSPLADEを使って構築し、密集したモデルと同じトレーニング改善の恩恵を受けることができるかを示します。
ドメイン内およびゼロショット設定における有効性と効率の関係について検討する。
論文 参考訳(メタデータ) (2022-05-10T08:08:43Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。