論文の概要: Is It Worth the (Environmental) Cost? Limited Evidence for the Benefits
of Diachronic Continuous Training
- arxiv url: http://arxiv.org/abs/2210.07365v1
- Date: Thu, 13 Oct 2022 21:18:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:17:10.749504
- Title: Is It Worth the (Environmental) Cost? Limited Evidence for the Benefits
of Diachronic Continuous Training
- Title(参考訳): 環境的な)コストに見合う価値はあるか?
Diachronic Continuous Training のメリットに対する限定的証拠
- Authors: Giuseppe Attanasio, Debora Nozza, Federico Bianchi, Dirk Hovy
- Abstract要約: 継続的トレーニングによって、新たなイベントや事実、規範の変更について、言語モデルを教えることができます。
実際の下流のパフォーマンスや環境コストなど,継続的トレーニングのメリットを示す証拠は限られている。
- 参考スコア(独自算出の注目度): 36.705592452909485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language is constantly changing and evolving, leaving language models to
quickly become outdated, both factually and linguistically. Recent research
proposes we continuously update our models using new data. Continuous training
allows us to teach language models about new events and facts and changing
norms. However, continuous training also means continuous costs. We show there
is currently limited evidence for the benefits of continuous training, be it
for the actual downstream performance or the environmental cost. Our results
show continuous training does not significantly improve performance. While it
is clear that, sooner or later, our language models need to be updated, it is
unclear when this effort is worth the cost. We call for a critical reflection
about when and how to use continuous training and for more benchmarks to
support this research direction.
- Abstract(参考訳): 言語は常に変化し進化しており、言語モデルは事実と言語の両方において急速に時代遅れになっている。
最近の研究は、新しいデータを用いて継続的にモデルを更新することを提案する。
継続的トレーニングは、新しいイベントや事実について言語モデルを教え、規範を変えることを可能にする。
しかし、継続的トレーニングは継続的なコストも伴います。
現状では,ダウンストリームのパフォーマンスや環境コストなど,継続的トレーニングのメリットに関するエビデンスが限定されている。
その結果,継続的トレーニングではパフォーマンスが著しく向上しないことがわかった。
遅かれ早かれ、私たちの言語モデルを更新する必要があることは明らかですが、この取り組みがコストに値するかどうかは不明です。
私たちは、この研究の方向性をサポートするために、継続的トレーニングとより多くのベンチマークを使用する方法と方法に関する批判的な考察を求めています。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。
既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文 参考訳(メタデータ) (2023-11-14T12:12:02Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - Test of Time: Instilling Video-Language Models with a Sense of Time [42.290970800790184]
既存の7つのビデオ言語モデルは、単純な時間的関係を理解するのに苦労している。
そこで本稿では,少量のビデオテキストデータに基づく事前学習に基づく時間適応手法であるVideoCLIPを提案する。
タスクにより高い時間意識を必要とする場合,特にパフォーマンス向上の促進を観察する。
論文 参考訳(メタデータ) (2023-01-05T14:14:36Z) - Localized Latent Updates for Fine-Tuning Vision-Language Models [15.285292154680246]
この作業では,データポイントに近いモデル予測のみを更新する,軽量なアダプタを提案する。
我々は、この比較的単純なアプローチの有効性とスピードを、数ショットの学習の文脈で示し、トレーニング中に見られるクラスと見えないクラスの両方の結果が、芸術の状況に匹敵するか、改善されるかのどちらかであることを示した。
論文 参考訳(メタデータ) (2022-12-13T13:15:20Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Temporal Effects on Pre-trained Models for Language Processing Tasks [9.819970078135343]
本稿では, 時間的モデル劣化がそれほど大きな問題ではないことを示すために, 大規模なニューラルプレトレーニング表現を用いた実験を行った。
しかし、時間的領域適応が有益であり、より最近の時間的データに基づいてシステムが訓練された場合、所定の時間に対してより優れた性能が得られる。
論文 参考訳(メタデータ) (2021-11-24T20:44:12Z) - Opinions are Made to be Changed: Temporally Adaptive Stance
Classification [9.061088449712859]
大規模で縦長なスタンスデータセットを2つ導入する。
スタンス分類器の性能持続性を時間とともに評価し、トレーニングデータとテストデータの間の時間的ギャップが増大するにつれて、どのように崩壊するかを示す。
組込み適応に対するいくつかのアプローチを提案し比較し、インクリメンタル・テンポラル・アライメント(ITA)モデルが時間の経過とともに性能低下を減少させる最良の結果をもたらすことを見出した。
論文 参考訳(メタデータ) (2021-08-27T19:47:31Z) - Pitfalls of Static Language Modelling [41.76918612574081]
現状のトランスフォーマーモデルは、訓練期間を超えて、将来の発話を予測する現実的なセットアップにおいて、さらに悪化することを示す。
私たちは、静的言語モデリング評価プロトコルを再考するのは、今が正しい時だと論じています。
論文 参考訳(メタデータ) (2021-02-03T09:01:49Z) - Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。
微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文 参考訳(メタデータ) (2020-05-01T02:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。