論文の概要: Evaluating Embedding Frameworks for Scientific Domain
- arxiv url: http://arxiv.org/abs/2510.06244v1
- Date: Fri, 03 Oct 2025 12:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.052878
- Title: Evaluating Embedding Frameworks for Scientific Domain
- Title(参考訳): 理科領域における埋め込みフレームワークの評価
- Authors: Nouman Ahmed, Ronin Wu, Victor Botev,
- Abstract要約: いくつかの下流タスクと、各タスクに関連するデータセットからなる評価スイートを構築します。
構築した評価スイートを用いて、様々な単語表現とトークン化アルゴリズムをテストする。
- 参考スコア(独自算出の注目度): 0.04588028371034406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding an optimal word representation algorithm is particularly important in terms of domain specific data, as the same word can have different meanings and hence, different representations depending on the domain and context. While Generative AI and transformer architecture does a great job at generating contextualized embeddings for any given work, they are quite time and compute extensive, especially if we were to pre-train such a model from scratch. In this work, we focus on the scientific domain and finding the optimal word representation algorithm along with the tokenization method that could be used to represent words in the scientific domain. The goal of this research is two fold: 1) finding the optimal word representation and tokenization methods that can be used in downstream scientific domain NLP tasks, and 2) building a comprehensive evaluation suite that could be used to evaluate various word representation and tokenization algorithms (even as new ones are introduced) in the scientific domain. To this end, we build an evaluation suite consisting of several downstream tasks and relevant datasets for each task. Furthermore, we use the constructed evaluation suite to test various word representation and tokenization algorithms.
- Abstract(参考訳): 最適な単語表現アルゴリズムを見つけることは、ドメイン固有のデータの観点から特に重要であり、同じ単語は異なる意味を持ち、したがってドメインやコンテキストによって異なる表現を持つことができる。
ジェネレーティブAIとトランスフォーマーアーキテクチャは、任意の作業に対してコンテキスト化された埋め込みを生成するのに優れた仕事をしますが、特にそのようなモデルをスクラッチから事前トレーニングする場合は、非常に時間と計算が広範です。
本研究では, 科学領域における単語の表現に使用できるトークン化手法とともに, 科学的領域に着目し, 最適な単語表現アルゴリズムを求める。
この研究の目標は2つある。
1)下流科学領域のNLPタスクで使用できる最適な単語表現とトークン化方法の探索
2) 様々な単語表現およびトークン化アルゴリズム(新しい単語が導入されたとしても)を科学的領域で評価するための総合的な評価スイートの構築。
この目的のために,複数の下流タスクと関連するデータセットからなる評価スイートを構築した。
さらに,構築した評価スイートを用いて,様々な単語表現とトークン化アルゴリズムをテストする。
関連論文リスト
- Are we describing the same sound? An analysis of word embedding spaces
of expressive piano performance [4.867952721052875]
表現力のあるピアノ演奏の特徴の領域における不確実性について検討する。
5つの埋め込みモデルとその類似性構造を基礎的真理に対応するために検証する。
埋め込みモデルの品質は、このタスクに対して大きなばらつきを示している。
論文 参考訳(メタデータ) (2023-12-31T12:20:03Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Domain-Specific Word Embeddings with Structure Prediction [3.057136788672694]
ニューヨーク・タイムズの記事と2つの英語のウィキペディアデータセットに科学と哲学に関する記事を載せた実証的な評価を提示する。
提案手法は,Word2Vec with Structure Prediction (W2VPred) と呼ばれ,一般的なアナロジーテストにおいて,ベースラインよりも優れた性能を提供する。
デジタル人文科学の分野でのユースケースとして、ドイツ語テキストアーカイブからハイ文学のための新しい研究課題を提起する方法を実証する。
論文 参考訳(メタデータ) (2022-10-06T12:45:48Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Automated Discovery of Mathematical Definitions in Text with Deep Neural
Networks [6.172021438837204]
本稿では,数学的テキストにおける一文定義の自動検出に着目する。
畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory Network(LSTM)などのディープラーニング手法を適用した。
また、数学的テキストから定義を抽出するための新しいデータセットも提示する。
論文 参考訳(メタデータ) (2020-11-09T15:57:53Z) - Meta-Learning for Domain Generalization in Semantic Parsing [124.32975734073949]
セマンティック解析のためにゼロショットドメインをターゲットにしたメタラーニングフレームワークを使用する。
ゼロショット解析の仮想トレインと非結合領域からのテストセットをシミュレートするモデル非依存のトレーニングアルゴリズムを適用した。
論文 参考訳(メタデータ) (2020-10-22T19:00:36Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。