論文の概要: Addressing Distribution Shift at Test Time in Pre-trained Language
Models
- arxiv url: http://arxiv.org/abs/2212.02384v1
- Date: Mon, 5 Dec 2022 16:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:48:46.639496
- Title: Addressing Distribution Shift at Test Time in Pre-trained Language
Models
- Title(参考訳): 事前学習言語モデルにおけるテスト時間における分布変化の対応
- Authors: Ayush Singh, John E. Ortega
- Abstract要約: State-of-the-the-art pre-trained Language Model (PLM)は、多くの言語処理タスクに適用された場合、他のモデルよりも優れている。
PLMは分散シフト下で性能が低下することが判明した。
本研究では,分散シフト下での試験時間におけるPLMの性能を向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 3.655021726150369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art pre-trained language models (PLMs) outperform other models
when applied to the majority of language processing tasks. However, PLMs have
been found to degrade in performance under distribution shift, a phenomenon
that occurs when data at test-time does not come from the same distribution as
the source training set. Equally as challenging is the task of obtaining labels
in real-time due to issues like long-labeling feedback loops. The lack of
adequate methods that address the aforementioned challenges constitutes the
need for approaches that continuously adapt the PLM to a distinct distribution.
Unsupervised domain adaptation adapts a source model to an unseen as well as
unlabeled target domain. While some techniques such as data augmentation can
adapt models in several scenarios, they have only been sparsely studied for
addressing the distribution shift problem. In this work, we present an approach
(MEMO-CL) that improves the performance of PLMs at test-time under distribution
shift. Our approach takes advantage of the latest unsupervised techniques in
data augmentation and adaptation to minimize the entropy of the PLM's output
distribution. MEMO-CL operates on a batch of augmented samples from a single
observation in the test set. The technique introduced is unsupervised,
domain-agnostic, easy to implement, and requires no additional data. Our
experiments result in a 3% improvement over current test-time adaptation
baselines.
- Abstract(参考訳): 最先端の事前学習言語モデル(plm)は、ほとんどの言語処理タスクに適用された場合、他のモデルよりも優れています。
しかし、PLMは、ソーストレーニングセットと同じ分布からテスト時にデータが得られない場合に発生する現象である分散シフトの下で性能が低下することが判明した。
同様に難しいのは、長いラベルのフィードバックループのような問題のために、リアルタイムでラベルを取得する作業です。
上記の課題に対処する適切な方法の欠如は、PLMを別の分布に継続的に適応させるアプローチの必要性を構成する。
教師なしのドメイン適応は、ソースモデルとラベルなしのターゲットドメインに適応する。
データ拡張のような手法はいくつかのシナリオでモデルに適応できるが、分布シフト問題に対処するためにあまり研究されていない。
本研究では,分散シフト下での試験時間におけるPLMの性能を向上させる手法(MEMO-CL)を提案する。
提案手法は, PLMの出力分布のエントロピーを最小化するために, データ拡張および適応における最新の教師なし手法を利用する。
MEMO-CLは、テストセット内の単一の観察から追加サンプルのバッチで動作する。
導入されるテクニックは教師なし、ドメイン非依存、実装が容易であり、追加データを必要としない。
実験の結果,現在の試験時間適応ベースラインよりも3%改善した。
関連論文リスト
- Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Adaptive Test-Time Personalization for Federated Learning [51.25437606915392]
テスト時パーソナライズド・フェデレーション・ラーニング(TTPFL)と呼ばれる新しい設定を導入する。
TTPFLでは、クライアントはテスト期間中にラベル付きデータに頼ることなく、教師なしの方法でグローバルモデルをローカルに適応する。
本稿では,ソースドメイン間の分散シフトから,モデル内の各モジュールの適応率を適応的に学習する ATP という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T20:42:47Z) - Robustness, Evaluation and Adaptation of Machine Learning Models in the
Wild [4.304803366354879]
本研究では、ドメインシフトに対するロバスト性の障害の原因と、ドメインロバストモデルをトレーニングするためのアルゴリズムを提案する。
モデル脆性の鍵となる原因はドメイン過度な適合であり、新しいトレーニングアルゴリズムはドメイン一般仮説を抑え、奨励する。
論文 参考訳(メタデータ) (2023-03-05T21:41:16Z) - Learning to Adapt to Online Streams with Distribution Shifts [22.155844301575883]
テスト時間適応(TTA)は、推論中にラベルのないテストデータを活用することにより、トレーニングセットとテストセットの間の分散ギャップを低減する手法である。
この作業では、TTAをより実践的なシナリオに拡張し、テストデータは、時間とともに分散の変化を経験するオンラインストリームの形式で提供される。
本稿では,メタトレーニング中にネットワークに分散シフトするオンラインストリームに適応するように教えるメタラーニング手法を提案する。その結果,トレーニングされたモデルはバッチサイズ制限にかかわらず,テスト中の分散シフトに連続的に適応することができる。
論文 参考訳(メタデータ) (2023-03-02T23:36:10Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Few-Shot Adaptation of Pre-Trained Networks for Domain Shift [17.123505029637055]
深層ネットワークは、ソース(トレーニング)データとターゲット(テスト)データの間にドメインシフトがある場合、パフォーマンスが低下する傾向がある。
最近のテスト時間適応手法では,新たなターゲット環境にデプロイされた事前訓練されたソースモデルのバッチ正規化レイヤをストリームデータで更新することで,パフォーマンス劣化を軽減している。
データ効率適応の実践的課題に対処するために,少数ショット領域適応のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T16:49:59Z) - Gradual Domain Adaptation in the Wild:When Intermediate Distributions
are Absent [32.906658998929394]
目標が目標分布に向かってモデルをシフトさせる場合、ドメイン適応の問題に焦点をあてる。
本稿では,ソース領域とターゲット領域の例を補間することで,中間分布から仮想サンプルを作成するGIFTを提案する。
論文 参考訳(メタデータ) (2021-06-10T22:47:06Z) - Adaptive Risk Minimization: Learning to Adapt to Domain Shift [109.87561509436016]
ほとんどの機械学習アルゴリズムの基本的な前提は、トレーニングとテストデータは、同じ基礎となる分布から引き出されることである。
本研究では,学習データをドメインに構造化し,複数のテスト時間シフトが存在する場合の領域一般化の問題点について考察する。
本稿では、適応リスク最小化(ARM)の枠組みを紹介し、モデルがトレーニング領域に適応することを学ぶことで、効果的な適応のために直接最適化される。
論文 参考訳(メタデータ) (2020-07-06T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。