論文の概要: Domain Adaptation for Sparse-Data Settings: What Do We Gain by Not Using
Bert?
- arxiv url: http://arxiv.org/abs/2203.16926v1
- Date: Thu, 31 Mar 2022 09:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 02:17:20.211373
- Title: Domain Adaptation for Sparse-Data Settings: What Do We Gain by Not Using
Bert?
- Title(参考訳): 疎データ設定のためのドメイン適応: Bert を使わないことで得られるものは何か?
- Authors: Marina Sedinkina, Martin Schmitt, Hinrich Sch\"utze
- Abstract要約: 特定のドメインで利用可能なラベル付きトレーニングデータが少ない場合に、NLPアプリケーションを構築するためのガイドラインを提供する。
我々は、最大175Kの速度でトレーニングでき、1つのGPUを必要としないモデルを含む、いくつかの代替手段のパフォーマンス上のトレードオフについて検討する。
- 参考スコア(独自算出の注目度): 4.808421423598809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The practical success of much of NLP depends on the availability of training
data. However, in real-world scenarios, training data is often scarce, not
least because many application domains are restricted and specific. In this
work, we compare different methods to handle this problem and provide
guidelines for building NLP applications when there is only a small amount of
labeled training data available for a specific domain. While transfer learning
with pre-trained language models outperforms other methods across tasks,
alternatives do not perform much worse while requiring much less computational
effort, thus significantly reducing monetary and environmental cost. We examine
the performance tradeoffs of several such alternatives, including models that
can be trained up to 175K times faster and do not require a single GPU.
- Abstract(参考訳): NLPの実践的な成功は、トレーニングデータの可用性に依存する。
しかし、実際のシナリオでは、多くのアプリケーションドメインが制限され、特定されているため、トレーニングデータはほとんどない。
本研究では,この問題を解決するための異なる手法を比較し,特定のドメインで利用可能なラベル付きトレーニングデータが少ない場合に,NLPアプリケーションを構築するためのガイドラインを提供する。
事前訓練された言語モデルによる伝達学習は、タスク間で他の方法よりも優れるが、計算労力が大幅に削減される一方で、代替手段はそれほど悪くはない。
我々は、最大175Kの速度でトレーニングでき、1つのGPUを必要としないモデルを含む、いくつかの代替案のパフォーマンストレードオフについて検討する。
関連論文リスト
- Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Informative Data Mining for One-Shot Cross-Domain Semantic Segmentation [84.82153655786183]
Informative Data Mining (IDM) と呼ばれる新しいフレームワークを提案し、セマンティックセグメンテーションのための効率的なワンショットドメイン適応を実現する。
IDMは、最も情報性の高いサンプルを特定するために不確実性に基づく選択基準を提供し、迅速に適応し、冗長なトレーニングを減らす。
提案手法は,GTA5/SYNTHIAからCityscapesへの適応タスクにおいて,既存の手法より優れ,56.7%/55.4%の最先端のワンショット性能を実現している。
論文 参考訳(メタデータ) (2023-09-25T15:56:01Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Federated Few-Shot Learning with Adversarial Learning [30.905239262227]
少数のラベル付きサンプルだけで、見えないデータクラスを分類できる、数ショットの分類モデルを学ぶための、数ショット学習フレームワークを提案する。
学習視覚タスクは10%以上,言語タスクは5%以上,私たちのアプローチはベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-04-01T09:44:57Z) - Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning
in NLP Using Fewer Parameters & Less Data [5.689320790746046]
マルチタスク学習(MTL)ネットワークは、異なるタスク間で学習知識を伝達するための有望な方法として登場した。
しかし、MTLは、低リソースタスクへの過度な適合、破滅的な忘れ込み、負のタスク転送といった課題に対処しなければならない。
本稿では,新しい条件付アテンション機構とタスク条件付きモジュール群からなるトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-19T02:04:34Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。