論文の概要: Towards understanding evolution of science through language model series
- arxiv url: http://arxiv.org/abs/2409.09636v1
- Date: Sun, 15 Sep 2024 07:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 19:58:08.816554
- Title: Towards understanding evolution of science through language model series
- Title(参考訳): 言語モデルシリーズによる科学の進化の理解に向けて
- Authors: Junjie Dong, Zhuoqi Lyu, Qing Ke,
- Abstract要約: AnnualBERTは、科学的テキストの時間的進化を捉えるために設計された一連の言語モデルである。
2008年まで発行された170万のarXiv論文の全文をスクラッチから事前訓練したRoBERTaモデルと、年間ベースでarXiv論文の漸進的に訓練されたモデルのコレクションで構成されている。
- 参考スコア(独自算出の注目度): 0.9831489366502298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AnnualBERT, a series of language models designed specifically to capture the temporal evolution of scientific text. Deviating from the prevailing paradigms of subword tokenizations and "one model to rule them all", AnnualBERT adopts whole words as tokens and is composed of a base RoBERTa model pretrained from scratch on the full-text of 1.7 million arXiv papers published until 2008 and a collection of progressively trained models on arXiv papers at an annual basis. We demonstrate the effectiveness of AnnualBERT models by showing that they not only have comparable performances in standard tasks but also achieve state-of-the-art performances on domain-specific NLP tasks as well as link prediction tasks in the arXiv citation network. We then utilize probing tasks to quantify the models' behavior in terms of representation learning and forgetting as time progresses. Our approach enables the pretrained models to not only improve performances on scientific text processing tasks but also to provide insights into the development of scientific discourse over time. The series of the models is available at https://huggingface.co/jd445/AnnualBERTs.
- Abstract(参考訳): 本稿では,科学的テキストの時間的進化を捉えるための言語モデルであるAnunalBERTを紹介する。
サブワードのトークン化や「全てを支配するための一つのモデル」という一般的なパラダイムから逸脱したYearnerBERTは、全単語をトークンとして採用し、2008年まで発行された170万のarXiv論文の全文をスクラッチから事前訓練したRoBERTaモデルと、年次ベースでのarXiv論文の漸進的に訓練されたモデルのコレクションで構成されている。
本研究では、標準タスクに匹敵する性能を持つだけでなく、ドメイン固有のNLPタスクにおける最先端のパフォーマンスと、arXiv引用ネットワークにおけるリンク予測タスクを達成できることを示すことで、YearnerBERTモデルの有効性を実証する。
次に、探索タスクを利用してモデルの振る舞いを表現学習の観点で定量化し、時間が進むにつれて忘れる。
我々のアプローチは,事前学習したモデルが科学的テキスト処理タスクの性能を向上させるだけでなく,時間とともに科学的談話の発達に関する洞察を与えることを可能にする。
一連のモデルはhttps://huggingface.co/jd445/AnnualBERTsで入手できる。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - SLCNN: Sentence-Level Convolutional Neural Network for Text
Classification [0.0]
畳み込みニューラルネットワーク(CNN)は,テキスト分類のタスクにおいて顕著な成功を収めている。
CNNを用いたテキスト分類のための新しいベースラインモデルが研究されている。
結果から,提案したモデルの性能は,特に長いドキュメントにおいて向上していることがわかった。
論文 参考訳(メタデータ) (2023-01-27T13:16:02Z) - Neural Dynamic Focused Topic Model [2.9005223064604078]
ニューラル変動推論の最近の進歩を活用し、ダイナミックフォーカストピックモデルに代替的なニューラルアプローチを提案する。
本稿では,Bernoulli確率変数の列を利用してトピックの出現を追跡するトピック進化のためのニューラルモデルを開発する。
論文 参考訳(メタデータ) (2023-01-26T08:37:34Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Structured Citation Trend Prediction Using Graph Neural Networks [6.325999141414098]
本論文では,公開時に論文のトップセットを予測するGNNベースのアーキテクチャを提案する。
実験では,さまざまなカンファレンスを対象とした学術的引用グラフの集合をキュレートし,提案モデルがF1スコアで他の古典的機械学習モデルより優れていることを示す。
論文 参考訳(メタデータ) (2021-04-06T14:58:29Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。