論文の概要: On "Scientific Debt" in NLP: A Case for More Rigour in Language Model
Pre-Training Research
- arxiv url: http://arxiv.org/abs/2306.02870v1
- Date: Mon, 5 Jun 2023 13:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 14:52:11.749780
- Title: On "Scientific Debt" in NLP: A Case for More Rigour in Language Model
Pre-Training Research
- Title(参考訳): nlpにおける「科学的負債」について : 言語モデル事前学習研究におけるより厳密な事例
- Authors: Made Nindyatama Nityasya, Haryo Akbarianto Wibowo, Alham Fikri Aji,
Genta Indra Winata, Radityo Eko Prasojo, Phil Blunsom, Adhiguna Kuncoro
- Abstract要約: 本稿では,言語モデルの事前学習文学における現在の研究実践を批判する。
モデル改善の異なる要因が、どのようにして価値ある新しい洞察をもたらすかを示す。
- 参考スコア(独自算出の注目度): 28.450331107332925
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This evidence-based position paper critiques current research practices
within the language model pre-training literature. Despite rapid recent
progress afforded by increasingly better pre-trained language models (PLMs),
current PLM research practices often conflate different possible sources of
model improvement, without conducting proper ablation studies and principled
comparisons between different models under comparable conditions. These
practices (i) leave us ill-equipped to understand which pre-training approaches
should be used under what circumstances; (ii) impede reproducibility and credit
assignment; and (iii) render it difficult to understand: "How exactly does each
factor contribute to the progress that we have today?" We provide a case in
point by revisiting the success of BERT over its baselines, ELMo and GPT-1, and
demonstrate how -- under comparable conditions where the baselines are tuned to
a similar extent -- these baselines (and even-simpler variants thereof) can, in
fact, achieve competitive or better performance than BERT. These findings
demonstrate how disentangling different factors of model improvements can lead
to valuable new insights. We conclude with recommendations for how to encourage
and incentivize this line of work, and accelerate progress towards a better and
more systematic understanding of what factors drive the progress of our
foundation models today.
- Abstract(参考訳): このエビデンスに基づくポジショニングペーパーは、言語モデルの事前学習文学における現在の研究慣行を批判する。
事前学習された言語モデル(plm)による最近の急速な進歩にもかかわらず、現在のplm研究は、適切なアブレーション研究や、同等の条件下での異なるモデル間の原則的な比較を行わずに、異なるモデル改善のソースを共用することが多い。
これらの実践
(i)どのような状況下において、どのような事前訓練アプローチを使うべきかを理解するのに不適当である。
(ii)再現性及び信用譲渡を妨げ、
(iii)「それぞれの要因は今日の進歩にどのように貢献するのか」を理解するのが困難です。
ELMo と GPT-1 のベースライン上でのBERT の成功を再考し、ベースラインが同じ程度チューニングされた条件下では、これらのベースライン(および、そのより単純な変種)が、実際、BERT よりも競争力あるいは優れたパフォーマンスを達成することができることを示す。
これらの結果は、モデル改善の異なる要因がいかにして価値ある新しい洞察をもたらすかを示している。
私たちは最後に、この一連の作業の奨励とインセンティブの方法、そして現在の基盤モデルの進歩を駆動する要因をより良く、より体系的に理解するための進捗を加速する方法を推奨します。
関連論文リスト
- Making Long-Context Language Models Better Multi-Hop Reasoners [42.09676404515287]
本稿では,各アサーションに対するアトリビューションの供給を促す新しいアプローチであるReasoning with Attributionsを紹介する。
我々は,プロプライエタリモデルとオープンソースモデルの両方を用いて,3つのマルチホップデータセットの実験を通じてアプローチを検証する。
本モデルでは,ChatGPT や Claude-Instant などの独自の LM を並列化して,マルチホップ推論ベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-08-06T15:06:40Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - How to Determine the Most Powerful Pre-trained Language Model without
Brute Force Fine-tuning? An Empirical Survey [23.757740341834126]
その結果,H-Scoreは効率性や効率性に優れることがわかった。
また、トレーニングの詳細、テキスト生成への適用性、今後の方向性に光を当てる特定の指標との整合性といった難しさについても概説する。
論文 参考訳(メタデータ) (2023-12-08T01:17:28Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Learning with Latent Structures in Natural Language Processing: A Survey [0.0]
遅延離散構造を用いた学習への近年の関心は、エンドタスク性能の向上と解釈可能性の向上に優れた帰納バイアスを取り入れている。
本研究は, シュロゲート勾配, 連続緩和, サンプリングによる限界確率という, モデル学習の3つの主要なファミリーを調査する。
本研究は,これらの手法の応用のレビューと,それらが引き起こす学習された潜伏構造の検査で締めくくった。
論文 参考訳(メタデータ) (2022-01-03T06:16:17Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - On the comparability of Pre-trained Language Models [0.0]
教師なし表現学習の最近の進歩は、NLPにおける伝達学習の概念を確立することに成功している。
より精巧なアーキテクチャは、コンテキスト情報をよりよく活用しています。
より大規模なコーパスは、自己教師型で大規模言語モデルを事前訓練するためのリソースとして使用される。
並列コンピューティングとクラウドコンピューティングの進歩により、これらのモデルを、以前確立されたモデルよりも短い時間で、同じまたは短い時間で、拡張能力でトレーニングすることが可能になった。
論文 参考訳(メタデータ) (2020-01-03T10:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。