論文の概要: Astro-HEP-BERT: A bidirectional language model for studying the meanings of concepts in astrophysics and high energy physics
- arxiv url: http://arxiv.org/abs/2411.14877v1
- Date: Fri, 22 Nov 2024 11:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 18:36:41.110848
- Title: Astro-HEP-BERT: A bidirectional language model for studying the meanings of concepts in astrophysics and high energy physics
- Title(参考訳): Astro-HEP-BERT:天体物理学と高エネルギー物理学における概念の意味を研究するための双方向言語モデル
- Authors: Arno Simons,
- Abstract要約: このプロジェクトは、科学の歴史、哲学、社会学の応用に双方向トランスフォーマーを適用することの有効性と可能性を示す。
トレーニングプロセス全体は、無償のコード、事前訓練された重み、テキスト入力を使用して実行され、1つのMacBook Pro Laptopで完了した。
予備的な評価は、Astro-HEP-BERTのCWEが、より大きなデータセットでスクラッチからトレーニングされたドメイン適応BERTモデルと互換性があることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: I present Astro-HEP-BERT, a transformer-based language model specifically designed for generating contextualized word embeddings (CWEs) to study the meanings of concepts in astrophysics and high-energy physics. Built on a general pretrained BERT model, Astro-HEP-BERT underwent further training over three epochs using the Astro-HEP Corpus, a dataset I curated from 21.84 million paragraphs extracted from more than 600,000 scholarly articles on arXiv, all belonging to at least one of these two scientific domains. The project demonstrates both the effectiveness and feasibility of adapting a bidirectional transformer for applications in the history, philosophy, and sociology of science (HPSS). The entire training process was conducted using freely available code, pretrained weights, and text inputs, completed on a single MacBook Pro Laptop (M2/96GB). Preliminary evaluations indicate that Astro-HEP-BERT's CWEs perform comparably to domain-adapted BERT models trained from scratch on larger datasets for domain-specific word sense disambiguation and induction and related semantic change analyses. This suggests that retraining general language models for specific scientific domains can be a cost-effective and efficient strategy for HPSS researchers, enabling high performance without the need for extensive training from scratch.
- Abstract(参考訳): Astro-HEP-BERTは,宇宙物理学や高エネルギー物理学における概念の意味を研究するために,文脈化された単語埋め込み(CWE)を生成するために設計されたトランスフォーマーベースの言語モデルである。
一般的な事前訓練されたBERTモデルに基づいて構築されたAstro-HEP-BERTは、ArXivに関する60,000以上の学術論文から2184万の段落から抽出されたデータセットであるAstro-HEP Corpusを用いて、少なくとも2つの科学領域の少なくとも1つに属する3つのエポックのトレーニングを行った。
このプロジェクトは、科学史、哲学、社会学(HPSS)の応用に双方向トランスフォーマーを適用することの有効性と可能性の両方を実証している。
トレーニングプロセス全体は、利用可能なコード、事前訓練された重み、テキスト入力を使用して実行され、1つのMacBook Pro Laptop (M2/96GB)で完了した。
Astro-HEP-BERTのCWEは、ドメイン固有の単語感覚の曖昧さと誘導および関連する意味変化の分析のために、スクラッチから訓練されたドメイン適応BERTモデルと互換性があることを示している。
このことは、特定の科学領域に対して汎用言語モデルを再訓練することは、HPSS研究者にとってコスト効率が高く効率的な戦略であり、スクラッチから広範なトレーニングを必要とせずに高いパフォーマンスを実現することができることを示唆している。
関連論文リスト
- Meaning at the Planck scale? Contextualized word embeddings for doing history, philosophy, and sociology of science [0.0]
テストケースとして"Planck"という用語を用いて、ドメイン固有の事前トレーニングの度合いが異なるBERTベースのモデルを5つ評価する。
その結果、ドメイン適応モデルは、対象項を曖昧にするために汎用モデルよりも優れていることが示された。
この研究は、科学的言語分析におけるドメイン固有の事前訓練の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-11-21T12:38:23Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - PhysBERT: A Text Embedding Model for Physics Scientific Literature [0.0]
本稿では,最初の物理固有テキスト埋め込みモデルであるPhysBERTを紹介する。
120万のarXiv物理論文のキュレートされたコーパスで事前訓練され、教師付きデータで微調整されたPhysBERTは、物理学固有のタスクに関する一般的なモデルよりも優れています。
論文 参考訳(メタデータ) (2024-08-18T19:18:12Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - INDUS: Effective and Efficient Language Models for Scientific Applications [8.653859684720231]
言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。
我々は、地球科学、生物学、物理学、生物物理学、惑星科学、天体物理学の密接に関連する分野に合わせた総合的なLLMスイートであるINDUSを開発した。
本稿では,RoBERTa(汎用)とSCIBERT(ドメイン固有)の両方のエンコーダにおいて,新たなタスクや関心領域における既存のタスクよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-17T12:15:07Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Leveraging Domain Agnostic and Specific Knowledge for Acronym
Disambiguation [5.766754189548904]
アクロニムの曖昧さは、テキストの中で曖昧なアクロニムの正しい意味を見つけることを目的としている。
本稿では,hdBERTを用いた階層型デュアルパスBERT法を提案する。
62,441文を含むSciADデータセットを用いて,hdBERTの有効性を検討した。
論文 参考訳(メタデータ) (2021-07-01T09:10:00Z) - ELECTRAMed: a new pre-trained language representation model for
biomedical NLP [0.0]
バイオメディカル分野に適したELECTRAMed(ELECTRAMed)と呼ばれる事前訓練されたドメイン固有言語モデルを提案する。
この新しいアプローチは、一般ドメインエレクトラアーキテクチャの学習フレームワークとその計算上の利点を継承している。
論文 参考訳(メタデータ) (2021-04-19T19:38:34Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [109.79957125584252]
変分オートエンコーダ(VAE)は、強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。
本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。
論文 参考訳(メタデータ) (2020-04-05T06:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。