論文の概要: Addressing Distribution Shift at Test Time in Pre-trained Language
Models
- arxiv url: http://arxiv.org/abs/2212.02384v1
- Date: Mon, 5 Dec 2022 16:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:48:46.639496
- Title: Addressing Distribution Shift at Test Time in Pre-trained Language
Models
- Title(参考訳): 事前学習言語モデルにおけるテスト時間における分布変化の対応
- Authors: Ayush Singh, John E. Ortega
- Abstract要約: State-of-the-the-art pre-trained Language Model (PLM)は、多くの言語処理タスクに適用された場合、他のモデルよりも優れている。
PLMは分散シフト下で性能が低下することが判明した。
本研究では,分散シフト下での試験時間におけるPLMの性能を向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 3.655021726150369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art pre-trained language models (PLMs) outperform other models
when applied to the majority of language processing tasks. However, PLMs have
been found to degrade in performance under distribution shift, a phenomenon
that occurs when data at test-time does not come from the same distribution as
the source training set. Equally as challenging is the task of obtaining labels
in real-time due to issues like long-labeling feedback loops. The lack of
adequate methods that address the aforementioned challenges constitutes the
need for approaches that continuously adapt the PLM to a distinct distribution.
Unsupervised domain adaptation adapts a source model to an unseen as well as
unlabeled target domain. While some techniques such as data augmentation can
adapt models in several scenarios, they have only been sparsely studied for
addressing the distribution shift problem. In this work, we present an approach
(MEMO-CL) that improves the performance of PLMs at test-time under distribution
shift. Our approach takes advantage of the latest unsupervised techniques in
data augmentation and adaptation to minimize the entropy of the PLM's output
distribution. MEMO-CL operates on a batch of augmented samples from a single
observation in the test set. The technique introduced is unsupervised,
domain-agnostic, easy to implement, and requires no additional data. Our
experiments result in a 3% improvement over current test-time adaptation
baselines.
- Abstract(参考訳): 最先端の事前学習言語モデル(plm)は、ほとんどの言語処理タスクに適用された場合、他のモデルよりも優れています。
しかし、PLMは、ソーストレーニングセットと同じ分布からテスト時にデータが得られない場合に発生する現象である分散シフトの下で性能が低下することが判明した。
同様に難しいのは、長いラベルのフィードバックループのような問題のために、リアルタイムでラベルを取得する作業です。
上記の課題に対処する適切な方法の欠如は、PLMを別の分布に継続的に適応させるアプローチの必要性を構成する。
教師なしのドメイン適応は、ソースモデルとラベルなしのターゲットドメインに適応する。
データ拡張のような手法はいくつかのシナリオでモデルに適応できるが、分布シフト問題に対処するためにあまり研究されていない。
本研究では,分散シフト下での試験時間におけるPLMの性能を向上させる手法(MEMO-CL)を提案する。
提案手法は, PLMの出力分布のエントロピーを最小化するために, データ拡張および適応における最新の教師なし手法を利用する。
MEMO-CLは、テストセット内の単一の観察から追加サンプルのバッチで動作する。
導入されるテクニックは教師なし、ドメイン非依存、実装が容易であり、追加データを必要としない。
実験の結果,現在の試験時間適応ベースラインよりも3%改善した。
関連論文リスト
- Meta-TTT: A Meta-learning Minimax Framework For Test-Time Training [5.9631503543049895]
テスト時ドメイン適応は、推論中に制限された未ラベルのターゲットデータに事前訓練されたモデルを適用することを目的とした、困難なタスクである。
本稿では,バッチ正規化レイヤ上でのテスト時間トレーニングを行うためのメタラーニングミニマックスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:16:05Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Adaptive Test-Time Personalization for Federated Learning [51.25437606915392]
テスト時パーソナライズド・フェデレーション・ラーニング(TTPFL)と呼ばれる新しい設定を導入する。
TTPFLでは、クライアントはテスト期間中にラベル付きデータに頼ることなく、教師なしの方法でグローバルモデルをローカルに適応する。
本稿では,ソースドメイン間の分散シフトから,モデル内の各モジュールの適応率を適応的に学習する ATP という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T20:42:47Z) - Robustness, Evaluation and Adaptation of Machine Learning Models in the
Wild [4.304803366354879]
本研究では、ドメインシフトに対するロバスト性の障害の原因と、ドメインロバストモデルをトレーニングするためのアルゴリズムを提案する。
モデル脆性の鍵となる原因はドメイン過度な適合であり、新しいトレーニングアルゴリズムはドメイン一般仮説を抑え、奨励する。
論文 参考訳(メタデータ) (2023-03-05T21:41:16Z) - Learning to Adapt to Online Streams with Distribution Shifts [22.155844301575883]
テスト時間適応(TTA)は、推論中にラベルのないテストデータを活用することにより、トレーニングセットとテストセットの間の分散ギャップを低減する手法である。
この作業では、TTAをより実践的なシナリオに拡張し、テストデータは、時間とともに分散の変化を経験するオンラインストリームの形式で提供される。
本稿では,メタトレーニング中にネットワークに分散シフトするオンラインストリームに適応するように教えるメタラーニング手法を提案する。その結果,トレーニングされたモデルはバッチサイズ制限にかかわらず,テスト中の分散シフトに連続的に適応することができる。
論文 参考訳(メタデータ) (2023-03-02T23:36:10Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Few-Shot Adaptation of Pre-Trained Networks for Domain Shift [17.123505029637055]
深層ネットワークは、ソース(トレーニング)データとターゲット(テスト)データの間にドメインシフトがある場合、パフォーマンスが低下する傾向がある。
最近のテスト時間適応手法では,新たなターゲット環境にデプロイされた事前訓練されたソースモデルのバッチ正規化レイヤをストリームデータで更新することで,パフォーマンス劣化を軽減している。
データ効率適応の実践的課題に対処するために,少数ショット領域適応のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T16:49:59Z) - Adaptive Risk Minimization: Learning to Adapt to Domain Shift [109.87561509436016]
ほとんどの機械学習アルゴリズムの基本的な前提は、トレーニングとテストデータは、同じ基礎となる分布から引き出されることである。
本研究では,学習データをドメインに構造化し,複数のテスト時間シフトが存在する場合の領域一般化の問題点について考察する。
本稿では、適応リスク最小化(ARM)の枠組みを紹介し、モデルがトレーニング領域に適応することを学ぶことで、効果的な適応のために直接最適化される。
論文 参考訳(メタデータ) (2020-07-06T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。