論文の概要: Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift
- arxiv url: http://arxiv.org/abs/2109.01558v1
- Date: Fri, 3 Sep 2021 14:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 14:01:15.586451
- Title: Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift
- Title(参考訳): 分布シフトを考慮した自然言語処理のための学習ニューラルモデル
- Authors: Paul Michel
- Abstract要約: 特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
- 参考スコア(独自算出の注目度): 10.990447273771592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominating NLP paradigm of training a strong neural predictor to perform
one task on a specific dataset has led to state-of-the-art performance in a
variety of applications (eg. sentiment classification, span-prediction based
question answering or machine translation). However, it builds upon the
assumption that the data distribution is stationary, ie. that the data is
sampled from a fixed distribution both at training and test time. This way of
training is inconsistent with how we as humans are able to learn from and
operate within a constantly changing stream of information. Moreover, it is
ill-adapted to real-world use cases where the data distribution is expected to
shift over the course of a model's lifetime.
The first goal of this thesis is to characterize the different forms this
shift can take in the context of natural language processing, and propose
benchmarks and evaluation metrics to measure its effect on current deep
learning architectures. We then proceed to take steps to mitigate the effect of
distributional shift on NLP models. To this end, we develop methods based on
parametric reformulations of the distributionally robust optimization
framework. Empirically, we demonstrate that these approaches yield more robust
models as demonstrated on a selection of realistic problems. In the third and
final part of this thesis, we explore ways of efficiently adapting existing
models to new domains or tasks. Our contribution to this topic takes
inspiration from information geometry to derive a new gradient update rule
which alleviate catastrophic forgetting issues during adaptation.
- Abstract(参考訳): 特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーション(例えば、最先端のパフォーマンス)に結びついている。
感情分類、スパン予測に基づく質問応答または機械翻訳)。
しかし、これはデータ分散が定常である、という仮定に基づいている。
データはトレーニングとテストの時間の両方で 固定された分布からサンプリングされます
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
さらに、データ分散がモデルのライフタイムの過程でシフトすることが期待される実世界のユースケースには不適応である。
この論文の最初のゴールは、このシフトが自然言語処理のコンテキストで得る様々な形態を特徴付け、現在のディープラーニングアーキテクチャに与える影響を測定するためのベンチマークと評価指標を提案することである。
次に,nlpモデルにおける分布シフトの影響を緩和するためのステップを講じる。
そこで我々は,分散的ロバストな最適化フレームワークのパラメトリック再構成に基づく手法を開発した。
実証的に、これらの手法が現実的な問題の選択において示されるように、より堅牢なモデルをもたらすことを示す。
この論文の第3部と最終部では、既存のモデルを新しいドメインやタスクに効率的に適応する方法を探る。
このトピックへの我々の貢献は、情報幾何学からインスピレーションを得て、適応中の破滅的な忘れの問題を軽減する新しい勾配更新ルールを導出する。
関連論文リスト
- Optimal Classification under Performative Distribution Shift [13.508249764979075]
本稿では,動作効果をプッシュフォワード尺度としてモデル化した新しい視点を提案する。
我々は、新しい仮定のセットの下で、パフォーマンスリスクの凸性を証明する。
また, 性能リスクの最小化を min-max 変動問題として再定義することにより, 逆向きの頑健な分類との関係を確立する。
論文 参考訳(メタデータ) (2024-11-04T12:20:13Z) - Adjusting Pretrained Backbones for Performativity [34.390793811659556]
本稿では,事前学習したバックボーンをモジュラー方式で演奏性に適応させる新しい手法を提案する。
再学習軌道に沿った損失を減らし、候補モデルの中から効果的に選択し、性能劣化を予測できることを示す。
論文 参考訳(メタデータ) (2024-10-06T14:41:13Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Prior-guided Source-free Domain Adaptation for Human Pose Estimation [24.50953879583841]
2次元人間のポーズ推定のためのドメイン適応法は、典型的にはソースデータへの連続的なアクセスを必要とする。
我々は、人気のある平均教師フレームワークを基盤とした擬似ラベル方式である、事前指導型自己学習(POST)を提案する。
論文 参考訳(メタデータ) (2023-08-26T20:30:04Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - Post-Hoc Domain Adaptation via Guided Data Homogenization [0.0]
ガイドデータ均質化によるデータ分布の変化への対応を提案する。
このアプローチは、ディープラーニングモデルに含まれるトレーニングデータに関する情報を利用して、ドメイン転送機能を学ぶ。
CIFAR-10およびMNISTデータセットの実験を通じて、データ均質化の可能性を示す。
論文 参考訳(メタデータ) (2021-04-08T09:18:48Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。