論文の概要: Adaptation Approaches for Nearest Neighbor Language Models
- arxiv url: http://arxiv.org/abs/2211.07828v1
- Date: Tue, 15 Nov 2022 01:10:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:27:44.917770
- Title: Adaptation Approaches for Nearest Neighbor Language Models
- Title(参考訳): 近距離隣接言語モデルへの適応アプローチ
- Authors: Rishabh Bhardwaj, George Polovets, Monica Sunkara
- Abstract要約: 半パラメトリック近傍言語モデル(k$NN-LMs)は、純粋にパラメトリックなLMよりも顕著に向上している。
この作業はそのギャップを埋めようと試み、新しいドメインに$k$NN-LMを適用するための次のアプローチを提案する。
それぞれの適応戦略を別々に検討し, アブレーション実験と広範囲な評価を行った。
- 参考スコア(独自算出の注目度): 4.839933270878873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-parametric Nearest Neighbor Language Models ($k$NN-LMs) have produced
impressive gains over purely parametric LMs, by leveraging large-scale
neighborhood retrieval over external memory datastores. However, there has been
little investigation into adapting such models for new domains. This work
attempts to fill that gap and suggests the following approaches for adapting
$k$NN-LMs -- 1) adapting the underlying LM (using Adapters), 2) expanding
neighborhood retrieval over an additional adaptation datastore, and 3) adapting
the weights (scores) of retrieved neighbors using a learned Rescorer module. We
study each adaptation strategy separately, as well as the combined performance
improvement through ablation experiments and an extensive set of evaluations
run over seven adaptation domains. Our combined adaptation approach
consistently outperforms purely parametric adaptation and zero-shot ($k$NN-LM)
baselines that construct datastores from the adaptation data. On average, we
see perplexity improvements of 17.1\% and 16\% for these respective baselines,
across domains.
- Abstract(参考訳): 半パラメトリック近接言語モデル(k$NN-LMs)は、外部メモリデータストア上の大規模近傍検索を活用することにより、純粋パラメトリックLMよりも顕著に向上した。
しかし、そのようなモデルを新しい領域に適用する研究はほとんど行われていない。
この作業はそのギャップを埋めようと試み、$k$NN-LMsを適用するための次のアプローチを提案する。
1)基盤となるlm(アダプタを使用)の適応
2)追加適応データストアによる近隣検索の拡大、及び
3) 学習したrescorerモジュールを用いて,検索した隣人の重み(スコア)を適応させる。
それぞれの適応戦略を別々に検討し,アブレーション実験による性能向上と7つの適応領域にわたる広範囲な評価を行った。
我々の組み合わせ適応アプローチは、適応データからデータストアを構成する純粋パラメトリック適応とゼロショットベースライン(k$NN-LM)を一貫して上回ります。
平均すると、パープレキシティはドメイン間で17.1\%と16\%改善されている。
関連論文リスト
- On the Implicit Relation Between Low-Rank Adaptation and Differential Privacy [5.359060261460183]
言語モデルの低ランクタスク適応(LoRAやFLoRAなど)が提案されている。
データプライバシのレンズからの低ランク適応に注目します。
他の既存の微調整アルゴリズムとは異なり、低ランク適応は暗黙的に微調整データのプライバシーを提供する。
論文 参考訳(メタデータ) (2024-09-26T04:56:49Z) - Task-level Distributionally Robust Optimization for Large Language Model-based Dense Retrieval [32.104911827710936]
本稿では,大規模言語モデルに基づくDense Retrievalファインタニングのためのタスクレベル分散ロバスト最適化(tDRO)を提案する。
tDROはドメインの重みをパラメータ化し、拡張されたドメイン勾配で更新する。
実験では、大規模検索ベンチマークの最適改善と、最大30%のデータセット使用率の削減が示されている。
論文 参考訳(メタデータ) (2024-08-20T07:48:19Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - UDALM: Unsupervised Domain Adaptation through Language Modeling [79.73916345178415]
複合分類とマスキング言語モデル損失を用いた微調整手順であるUDALMについて紹介します。
本実験では, 混合損失スケールと利用可能な目標データの量で訓練されたモデルの性能を, 停止基準として有効に用いることを示した。
この方法は、amazon reviewsセンチメントデータセットの12のドメインペアで評価され、9.1.74%の精度が得られ、最先端よりも1.11%の絶対的な改善が得られます。
論文 参考訳(メタデータ) (2021-04-14T19:05:01Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。