論文の概要: Reconsidering the Past: Optimizing Hidden States in Language Models
- arxiv url: http://arxiv.org/abs/2112.08653v1
- Date: Thu, 16 Dec 2021 06:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:59:42.616901
- Title: Reconsidering the Past: Optimizing Hidden States in Language Models
- Title(参考訳): 過去を再考する: 言語モデルにおける隠れ状態の最適化
- Authors: Davis Yoshida and Kevin Gimpel
- Abstract要約: 本稿では,変圧器言語モデルの性能向上のための勾配に基づくHSOを提案する。
HSOは、言語モデルが評価テキストに割り当てるログ確率の勾配を計算するが、モデルパラメータではなくキャッシュされた隠れ状態の更新に使用する。
- 参考スコア(独自算出の注目度): 35.7524942657169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Hidden-State Optimization (HSO), a gradient-based method for
improving the performance of transformer language models at inference time.
Similar to dynamic evaluation (Krause et al., 2018), HSO computes the gradient
of the log-probability the language model assigns to an evaluation text, but
uses it to update the cached hidden states rather than the model parameters. We
test HSO with pretrained Transformer-XL and GPT-2 language models, finding
improvement on the WikiText103 and PG-19 datasets in terms of perplexity,
especially when evaluating a model outside of its training distribution. We
also demonstrate downstream applicability by showing gains in the recently
developed prompt-based few-shot evaluation setting, again with no extra
parameters or training data.
- Abstract(参考訳): 推論時間におけるトランスフォーマー言語モデルの性能向上のための勾配法であるHudden-State Optimization (HSO)を提案する。
動的評価(krause et al., 2018)と同様に、hsoは言語モデルが評価テキストに割り当てるログ確率の勾配を計算するが、モデルパラメータではなくキャッシュされた隠れ状態を更新するために使用する。
我々は,事前訓練した Transformer-XL と GPT-2 言語モデルを用いて HSO を検証し,WikiText103 と PG-19 のデータセットの改善点を,特にトレーニング分布外のモデルを評価する際に,難易度の観点から確認した。
また,最近開発されたプロンプトベースの少数ショット評価設定の成果を,追加パラメータやトレーニングデータなしで示すことで,下流への適用性を示す。
関連論文リスト
- Style Locality for Controllable Generation with kNN Language Models [11.4179290793997]
近隣の言語モデルは、単語予測を支援するために類似した文脈を検索する。
局所性レベルを追加することで、モデルは、ソース文書の現在のテキストとの相対的な位置に基づいて、隣人を重み付けする方法を学ぶことができる。
我々のモデルは、スタイルをうまく制御することができ、以前の作業よりも流布スタイルのトレードオフを提供することを示す。
論文 参考訳(メタデータ) (2023-11-01T12:21:53Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Learning Evaluation Models from Large Language Models for Sequence
Generation [44.22820310679188]
大規模言語モデルは、シーケンス生成評価において最先端のパフォーマンスを達成するが、典型的には多数のパラメータを持つ。
テキスト評価用textbfcapability textbftransfer 法である textbfECT を提案し,その評価能力を LLM から比較的軽量な言語モデルに転送する。
提案するECTに基づいて、ChatGPTから様々な評価モデルを学び、それらを報酬モデルとして利用してシーケンス生成モデルを改善する。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Meta-Learning Fast Weight Language Models [105.66999854213724]
我々は、動的評価の利点をより効率的に提供するニューラルネットワークコンポーネントであるFWL(Fast Weight Layers)を提示する。
FWLはトレーニング時に適用でき、モデルが勾配更新をうまく活用することを学ぶ。
論文 参考訳(メタデータ) (2022-12-05T18:37:09Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。