論文の概要: Meaning at the Planck scale? Contextualized word embeddings for doing history, philosophy, and sociology of science
- arxiv url: http://arxiv.org/abs/2411.14073v1
- Date: Thu, 21 Nov 2024 12:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:18:39.384240
- Title: Meaning at the Planck scale? Contextualized word embeddings for doing history, philosophy, and sociology of science
- Title(参考訳): プランクスケールにおける意味 : 歴史、哲学、社会学を実践するための文脈的単語埋め込み
- Authors: Arno Simons,
- Abstract要約: テストケースとして"Planck"という用語を用いて、ドメイン固有の事前トレーニングの度合いが異なるBERTベースのモデルを5つ評価する。
その結果、ドメイン適応モデルは、対象項を曖昧にするために汎用モデルよりも優れていることが示された。
この研究は、科学的言語分析におけるドメイン固有の事前訓練の重要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper explores the potential of contextualized word embeddings (CWEs) as a new tool in the history, philosophy, and sociology of science (HPSS) for studying contextual and evolving meanings of scientific concepts. Using the term "Planck" as a test case, I evaluate five BERT-based models with varying degrees of domain-specific pretraining, including my custom model Astro-HEP-BERT, trained on the Astro-HEP Corpus, a dataset containing 21.84 million paragraphs from 600,000 articles in astrophysics and high-energy physics. For this analysis, I compiled two labeled datasets: (1) the Astro-HEP-Planck Corpus, consisting of 2,900 labeled occurrences of "Planck" sampled from 1,500 paragraphs in the Astro-HEP Corpus, and (2) a physics-related Wikipedia dataset comprising 1,186 labeled occurrences of "Planck" across 885 paragraphs. Results demonstrate that the domain-adapted models outperform the general-purpose ones in disambiguating the target term, predicting its known meanings, and generating high-quality sense clusters, as measured by a novel purity indicator I developed. Additionally, this approach reveals semantic shifts in the target term over three decades in the unlabeled Astro-HEP Corpus, highlighting the emergence of the Planck space mission as a dominant sense. The study underscores the importance of domain-specific pretraining for analyzing scientific language and demonstrates the cost-effectiveness of adapting pretrained models for HPSS research. By offering a scalable and transferable method for modeling the meanings of scientific concepts, CWEs open up new avenues for investigating the socio-historical dynamics of scientific discourses.
- Abstract(参考訳): 本稿では、文脈的・進化的な科学概念の意味を研究するための、歴史・哲学・社会学の新しいツールとして、文脈的単語埋め込み(CWE)の可能性について考察する。
私のカスタムモデルであるAstro-HEP-BERTは、Astro-HEP Corpusでトレーニングされ、60,000の天体物理学および高エネルギー物理学の21.84万の段落を含むデータセットである。
本研究では,(1) Astro-HEP-Planck Corpus,(2) Astro-HEP Corpusの1500段落からサンプリングされた2,900段落の「プランク」,(2) 1,186段落の「プランク」を885段落にまとめた物理関連ウィキペディアデータセットを作成した。
その結果, ドメイン適応モデルは, 対象用語の曖昧さ, 既知の意味の予測, 高品質な感覚クラスターの生成において, 新たな純度指標によって測定された汎用モデルよりも優れていた。
さらにこのアプローチは、未ラベルのAstro-HEP Corpusにおける30年以上の目標期間におけるセマンティックシフトを明らかにし、プランクの宇宙ミッションの出現を支配的な感覚として強調している。
この研究は、科学的言語分析におけるドメイン固有の事前訓練の重要性を強調し、HPSS研究に事前訓練モデルを適用することのコスト効果を実証する。
科学的概念の意味をモデル化するためのスケーラブルで伝達可能な方法を提供することで、CWEは科学談話の社会-歴史的ダイナミクスを研究するための新しい道を開いた。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Astro-HEP-BERT: A bidirectional language model for studying the meanings of concepts in astrophysics and high energy physics [0.0]
このプロジェクトは、科学の歴史、哲学、社会学の応用に双方向トランスフォーマーを適用することの有効性と可能性を示す。
トレーニングプロセス全体は、無償のコード、事前訓練された重み、テキスト入力を使用して実行され、1つのMacBook Pro Laptopで完了した。
予備的な評価は、Astro-HEP-BERTのCWEが、より大きなデータセットでスクラッチからトレーニングされたドメイン適応BERTモデルと互換性があることを示している。
論文 参考訳(メタデータ) (2024-11-22T11:59:15Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - SciTweets -- A Dataset and Annotation Framework for Detecting Scientific
Online Discourse [2.3371548697609303]
科学的な話題、主張、資源は、オンライン談話の一部としてますます議論されている。
これにより、社会的な影響が大きくなり、様々な分野からの科学的オンライン談話への関心が高まった。
専門分野にわたる研究は、現在、科学関連の様々な形態の堅牢な定義の欠如に悩まされている。
論文 参考訳(メタデータ) (2022-06-15T08:14:55Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - Analyzing Scientific Publications using Domain-Specific Word Embedding
and Topic Modelling [0.6308539010172307]
本稿では学術出版物の科学的分析を行うための枠組みを提案する。
自然言語処理の様々な技術、例えば単語の埋め込みやトピックモデリングを組み合わせる。
PUB-G と PUB-W という2つの新しい科学論文の埋め込みを提案する。
論文 参考訳(メタデータ) (2021-12-24T04:25:34Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - Automatic coding of students' writing via Contrastive Representation
Learning in the Wasserstein space [6.884245063902909]
本研究は,学生の文章の質的分析を支援する統計的機械学習(ML)手法を構築するためのステップである。
MLアルゴリズムは,人間解析のラタ間信頼性に近づいた。
論文 参考訳(メタデータ) (2020-11-26T16:52:48Z) - Informational Space of Meaning for Scientific Texts [68.8204255655161]
本稿では,単語の意味を,テキストが属する対象カテゴリに関する相対情報ゲイン(RIG)のベクトルで表現する意味空間を紹介する。
Leicester Scientific Corpus (LSC) と Leicester Scientific Dictionary-Core (LScDC) に基づく意味空間の構築に本手法を適用した。
RIGに基づく提案モデルでは,カテゴリ内の話題特化語を際立たせる能力があることが示されている。
論文 参考訳(メタデータ) (2020-04-28T14:26:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。