論文の概要: Pitfalls of Static Language Modelling
- arxiv url: http://arxiv.org/abs/2102.01951v1
- Date: Wed, 3 Feb 2021 09:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:50:04.549066
- Title: Pitfalls of Static Language Modelling
- Title(参考訳): 静的言語モデリングの落とし穴
- Authors: Angeliki Lazaridou, Adhiguna Kuncoro, Elena Gribovskaya, Devang
Agrawal, Adam Liska, Tayfun Terzi, Mai Gimenez, Cyprien de Masson d'Autume,
Sebastian Ruder, Dani Yogatama, Kris Cao, Tomas Kocisky, Susannah Young, Phil
Blunsom
- Abstract要約: 現状のトランスフォーマーモデルは、訓練期間を超えて、将来の発話を予測する現実的なセットアップにおいて、さらに悪化することを示す。
私たちは、静的言語モデリング評価プロトコルを再考するのは、今が正しい時だと論じています。
- 参考スコア(独自算出の注目度): 41.76918612574081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our world is open-ended, non-stationary and constantly evolving; thus what we
talk about and how we talk about it changes over time. This inherent dynamic
nature of language comes in stark contrast to the current static language
modelling paradigm, which constructs training and evaluation sets from
overlapping time periods. Despite recent progress, we demonstrate that
state-of-the-art Transformer models perform worse in the realistic setup of
predicting future utterances from beyond their training period -- a consistent
pattern across three datasets from two domains. We find that, while increasing
model size alone -- a key driver behind recent progress -- does not provide a
solution for the temporal generalization problem, having models that
continually update their knowledge with new information can indeed slow down
the degradation over time. Hence, given the compilation of ever-larger language
modelling training datasets, combined with the growing list of
language-model-based NLP applications that require up-to-date knowledge about
the world, we argue that now is the right time to rethink our static language
modelling evaluation protocol, and develop adaptive language models that can
remain up-to-date with respect to our ever-changing and non-stationary world.
- Abstract(参考訳): 私たちの世界はオープンエンドで、非定常的で、常に進化しています。
この言語の固有の動的な性質は、重複した期間からトレーニングと評価セットを構築する現在の静的言語モデリングパラダイムとは全く対照的である。
近年の進歩にもかかわらず、最先端トランスフォーマーモデルでは、トレーニング期間を超えて将来の発話を予測するという現実的な設定でパフォーマンスが低下していることが示されています。
最近の進歩の背後にある重要な要因であるモデルサイズのみの増加は、時間的一般化問題に対する解決策を提供していないが、新しい情報で自身の知識を継続的に更新するモデルは、時間の経過とともに明らかに劣化を遅らせている。
したがって、より大規模な言語モデリングトレーニングデータセットのコンパイルと、世界に関する最新の知識を必要とする言語モデルベースのnlpアプリケーションの増加とを組み合わせることで、現在、静的言語モデリング評価プロトコルを再考し、変わらず変わらず変化しない世界に対して最新のままでいられる適応型言語モデルを開発するのが適切なタイミングである、と主張する。
関連論文リスト
- Time Machine GPT [15.661920010658626]
大規模言語モデル(LLM)は、広範かつ時間的に区別されないテキストコーパスでしばしば訓練される。
このアプローチは言語の性質の進化と一致していない。
本稿では,Time Machine GPT (TiMaGPT) と呼ばれる一連のポイントインタイムLCMを提案する。
論文 参考訳(メタデータ) (2024-04-29T09:34:25Z) - More Room for Language: Investigating the Effect of Retrieval on Language Models [3.8574940917179164]
本稿では、これらのモデルを完全に制御可能な環境で研究するための「理想的検索」手法を提案する。
本研究では,検索の強化が言語モデルの動作に与える影響を評価するための評価を行う。
論文 参考訳(メタデータ) (2024-04-16T22:43:48Z) - Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。
既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文 参考訳(メタデータ) (2023-11-14T12:12:02Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。