論文の概要: Adaptation Approaches for Nearest Neighbor Language Models
- arxiv url: http://arxiv.org/abs/2211.07828v1
- Date: Tue, 15 Nov 2022 01:10:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:27:44.917770
- Title: Adaptation Approaches for Nearest Neighbor Language Models
- Title(参考訳): 近距離隣接言語モデルへの適応アプローチ
- Authors: Rishabh Bhardwaj, George Polovets, Monica Sunkara
- Abstract要約: 半パラメトリック近傍言語モデル(k$NN-LMs)は、純粋にパラメトリックなLMよりも顕著に向上している。
この作業はそのギャップを埋めようと試み、新しいドメインに$k$NN-LMを適用するための次のアプローチを提案する。
それぞれの適応戦略を別々に検討し, アブレーション実験と広範囲な評価を行った。
- 参考スコア(独自算出の注目度): 4.839933270878873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-parametric Nearest Neighbor Language Models ($k$NN-LMs) have produced
impressive gains over purely parametric LMs, by leveraging large-scale
neighborhood retrieval over external memory datastores. However, there has been
little investigation into adapting such models for new domains. This work
attempts to fill that gap and suggests the following approaches for adapting
$k$NN-LMs -- 1) adapting the underlying LM (using Adapters), 2) expanding
neighborhood retrieval over an additional adaptation datastore, and 3) adapting
the weights (scores) of retrieved neighbors using a learned Rescorer module. We
study each adaptation strategy separately, as well as the combined performance
improvement through ablation experiments and an extensive set of evaluations
run over seven adaptation domains. Our combined adaptation approach
consistently outperforms purely parametric adaptation and zero-shot ($k$NN-LM)
baselines that construct datastores from the adaptation data. On average, we
see perplexity improvements of 17.1\% and 16\% for these respective baselines,
across domains.
- Abstract(参考訳): 半パラメトリック近接言語モデル(k$NN-LMs)は、外部メモリデータストア上の大規模近傍検索を活用することにより、純粋パラメトリックLMよりも顕著に向上した。
しかし、そのようなモデルを新しい領域に適用する研究はほとんど行われていない。
この作業はそのギャップを埋めようと試み、$k$NN-LMsを適用するための次のアプローチを提案する。
1)基盤となるlm(アダプタを使用)の適応
2)追加適応データストアによる近隣検索の拡大、及び
3) 学習したrescorerモジュールを用いて,検索した隣人の重み(スコア)を適応させる。
それぞれの適応戦略を別々に検討し,アブレーション実験による性能向上と7つの適応領域にわたる広範囲な評価を行った。
我々の組み合わせ適応アプローチは、適応データからデータストアを構成する純粋パラメトリック適応とゼロショットベースライン(k$NN-LM)を一貫して上回ります。
平均すると、パープレキシティはドメイン間で17.1\%と16\%改善されている。
関連論文リスト
- DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - Meta-SAGE: Scale Meta-Learning Scheduled Adaptation with Guided
Exploration for Mitigating Scale Shift on Combinatorial Optimization [13.54697305625963]
本稿では,COタスクのための深層強化学習モデルのスケーラビリティ向上のための新しいアプローチを提案する。
提案手法は,大規模メタラーナーとガイド付き探索(SAGE)によるスケジュール適応の2つのコンポーネントを提案することによって,事前学習したモデルをテスト時間における大規模問題に適用する。
その結果,Meta-SAGEは従来の適応手法よりも優れており,COタスクのスケーラビリティが著しく向上していることがわかった。
論文 参考訳(メタデータ) (2023-06-05T08:28:42Z) - AdapterEM: Pre-trained Language Model Adaptation for Generalized Entity
Matching using Adapter-tuning [3.4754314910585626]
本稿では,アダプタをベースとした微調整PrLMのためのパラメータ効率のパラダイムを提案する。
提案手法は,フルスケールのPrLMファインチューニングとプロンプトチューニングのベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-30T04:03:23Z) - AdapterSoup: Weight Averaging to Improve Generalization of Pretrained
Language Models [127.04370753583261]
事前訓練された言語モデル(PLM)は、大規模なコーパスで訓練されるが、しばしば特定のドメインに特化する必要がある。
解決策は、テスト時に新しいドメインに関連ドメインアダプタを使用することである。
本稿では、異なるドメインでトレーニングされたアダプタの重量空間平均化を行うAdapterSoupを紹介する。
論文 参考訳(メタデータ) (2023-02-14T13:09:23Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Evaluating Parameter Efficient Learning for Generation [32.52577462253145]
PERMとファインタニングを3つの新しい視点から比較する。
その結果、ドメイン内設定(a)では、PERMsがより少ないサンプルでトレーニングする際の微調整よりも優れた性能を示し、(b)より大きなPLMが存在することがわかった。
また、世代ごとの忠実度を比較し、特に小さなトレーニングセットにおいて、PERMsが微調整よりも忠実度を最大6%向上できることを示す。
論文 参考訳(メタデータ) (2022-10-25T00:14:48Z) - UDALM: Unsupervised Domain Adaptation through Language Modeling [79.73916345178415]
複合分類とマスキング言語モデル損失を用いた微調整手順であるUDALMについて紹介します。
本実験では, 混合損失スケールと利用可能な目標データの量で訓練されたモデルの性能を, 停止基準として有効に用いることを示した。
この方法は、amazon reviewsセンチメントデータセットの12のドメインペアで評価され、9.1.74%の精度が得られ、最先端よりも1.11%の絶対的な改善が得られます。
論文 参考訳(メタデータ) (2021-04-14T19:05:01Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。