Fugu-MT 論文翻訳(概要): Adaptation Approaches for Nearest Neighbor Language Models

論文の概要: Adaptation Approaches for Nearest Neighbor Language Models

arxiv url: http://arxiv.org/abs/2211.07828v1
Date: Tue, 15 Nov 2022 01:10:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-16 14:27:44.917770
Title: Adaptation Approaches for Nearest Neighbor Language Models
Title（参考訳）: 近距離隣接言語モデルへの適応アプローチ
Authors: Rishabh Bhardwaj, George Polovets, Monica Sunkara
Abstract要約: 半パラメトリック近傍言語モデル(k$NN-LMs)は、純粋にパラメトリックなLMよりも顕著に向上している。この作業はそのギャップを埋めようと試み、新しいドメインに$k$NN-LMを適用するための次のアプローチを提案する。それぞれの適応戦略を別々に検討し, アブレーション実験と広範囲な評価を行った。
参考スコア（独自算出の注目度）: 4.839933270878873
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semi-parametric Nearest Neighbor Language Models ($k$NN-LMs) have produced impressive gains over purely parametric LMs, by leveraging large-scale neighborhood retrieval over external memory datastores. However, there has been little investigation into adapting such models for new domains. This work attempts to fill that gap and suggests the following approaches for adapting $k$NN-LMs -- 1) adapting the underlying LM (using Adapters), 2) expanding neighborhood retrieval over an additional adaptation datastore, and 3) adapting the weights (scores) of retrieved neighbors using a learned Rescorer module. We study each adaptation strategy separately, as well as the combined performance improvement through ablation experiments and an extensive set of evaluations run over seven adaptation domains. Our combined adaptation approach consistently outperforms purely parametric adaptation and zero-shot ($k$NN-LM) baselines that construct datastores from the adaptation data. On average, we see perplexity improvements of 17.1\% and 16\% for these respective baselines, across domains.
Abstract（参考訳）: 半パラメトリック近接言語モデル(k$NN-LMs)は、外部メモリデータストア上の大規模近傍検索を活用することにより、純粋パラメトリックLMよりも顕著に向上した。しかし、そのようなモデルを新しい領域に適用する研究はほとんど行われていない。この作業はそのギャップを埋めようと試み、$k$NN-LMsを適用するための次のアプローチを提案する。 1)基盤となるlm(アダプタを使用)の適応 2)追加適応データストアによる近隣検索の拡大、及び 3) 学習したrescorerモジュールを用いて,検索した隣人の重み(スコア)を適応させる。それぞれの適応戦略を別々に検討し,アブレーション実験による性能向上と7つの適応領域にわたる広範囲な評価を行った。我々の組み合わせ適応アプローチは、適応データからデータストアを構成する純粋パラメトリック適応とゼロショットベースライン(k$NN-LM)を一貫して上回ります。平均すると、パープレキシティはドメイン間で17.1\%と16\%改善されている。

関連論文リスト

Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。 SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文参考訳（メタデータ） (2025-06-01T15:30:37Z)
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [72.28364940168092]
オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを使用して未定義のクラスの集合からピクセルをラベル付けする。本稿では,セマンティックライブラリ適応(Semantic Library Adaptation, SemLA)を紹介する。
論文参考訳（メタデータ） (2025-03-27T17:59:58Z)
FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client Vectors [50.131271229165165]
Federated Learning (FL)は、分散機械学習のための有望なフレームワークとして登場した。ユーザの行動、好み、デバイス特性の相違から生じるデータの異質性は、連合学習にとって重要な課題である。本稿では,学習過程におけるクライアントベクトルに基づくアダプティブ重み付けを適応的に調整する手法であるAdaptive Weight Aggregation (FedAWA)を提案する。
論文参考訳（メタデータ） (2025-03-20T04:49:40Z)
On the Implicit Relation Between Low-Rank Adaptation and Differential Privacy [5.359060261460183]
言語モデルの低ランクタスク適応(LoRAやFLoRAなど)が提案されている。データプライバシのレンズからの低ランク適応に注目します。他の既存の微調整アルゴリズムとは異なり、低ランク適応は暗黙的に微調整データのプライバシーを提供する。
論文参考訳（メタデータ） (2024-09-26T04:56:49Z)
Task-level Distributionally Robust Optimization for Large Language Model-based Dense Retrieval [32.104911827710936]
本稿では,大規模言語モデルに基づくDense Retrievalファインタニングのためのタスクレベル分散ロバスト最適化(tDRO)を提案する。 tDROはドメインの重みをパラメータ化し、拡張されたドメイン勾配で更新する。実験では、大規模検索ベンチマークの最適改善と、最大30%のデータセット使用率の削減が示されている。
論文参考訳（メタデータ） (2024-08-20T07:48:19Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Optimal Transport for Domain Adaptation through Gaussian Mixture Models [7.292229955481438]
機械学習システムは、トレーニングとテストデータが固定確率分布からサンプリングされるという仮定の下で運用される。本研究では,ガウス混合モデル (GMM) 間の最適輸送について検討する。提案手法は,従来の浅層領域適応法よりも効率がよいことを示す。
論文参考訳（メタデータ） (2024-03-18T09:32:33Z)
DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。 DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文参考訳（メタデータ） (2023-10-23T22:51:58Z)
Train/Test-Time Adaptation with Retrieval [129.8579208970529]
Train/Test-Time Adaptation with Retrieval(rm T3AR$)を紹介します。 $rm T3AR$は、洗練された擬似ラベルと自己教師付きコントラスト目的関数を使用して、所定のモデルを下流タスクに適合させる。検索モジュールのおかげで、ユーザまたはサービスプロバイダは、下流タスクのモデル適応を改善することができる。
論文参考訳（メタデータ） (2023-03-25T02:44:57Z)
You can't pick your neighbors, or can you? When and how to rely on retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文参考訳（メタデータ） (2022-10-28T02:57:40Z)
UDALM: Unsupervised Domain Adaptation through Language Modeling [79.73916345178415]
複合分類とマスキング言語モデル損失を用いた微調整手順であるUDALMについて紹介します。本実験では, 混合損失スケールと利用可能な目標データの量で訓練されたモデルの性能を, 停止基準として有効に用いることを示した。この方法は、amazon reviewsセンチメントデータセットの12のドメインペアで評価され、9.1.74%の精度が得られ、最先端よりも1.11%の絶対的な改善が得られます。
論文参考訳（メタデータ） (2021-04-14T19:05:01Z)
Robust Optimal Transport with Applications in Generative Modeling and Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文参考訳（メタデータ） (2020-10-12T17:13:40Z)
Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。多くの設定で一貫してパフォーマンスが向上する。
論文参考訳（メタデータ） (2020-10-01T22:24:46Z)
A Simple Baseline to Semi-Supervised Domain Adaptation for Machine Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。 NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文参考訳（メタデータ） (2020-01-22T16:42:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。