論文の概要: Astro-NER -- Astronomy Named Entity Recognition: Is GPT a Good Domain Expert Annotator?
- arxiv url: http://arxiv.org/abs/2405.02602v1
- Date: Sat, 4 May 2024 08:04:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 19:10:59.470899
- Title: Astro-NER -- Astronomy Named Entity Recognition: Is GPT a Good Domain Expert Annotator?
- Title(参考訳): Astro-NER -- Astronomy Named Entity Recognition: GPTは優れたドメインエキスパートアノテーションか?
- Authors: Julia Evans, Sameer Sadruddin, Jennifer D'Souza,
- Abstract要約: 我々は、微調整LDMモデルからの予測を用いて、天文学文学における科学的実体の注釈付けにおいて、非ドメインの専門家を支援するアプローチを実験した。
本結果から, ドメインエキスパートとLLM支援非専門家との間には適度な合意が得られ, ドメインエキスパートとLLMモデルの予測との間には公平な合意が得られた。
5000の注釈付き天文学記事のタイトルを含むデータセットが公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this study, we address one of the challenges of developing NER models for scholarly domains, namely the scarcity of suitable labeled data. We experiment with an approach using predictions from a fine-tuned LLM model to aid non-domain experts in annotating scientific entities within astronomy literature, with the goal of uncovering whether such a collaborative process can approximate domain expertise. Our results reveal moderate agreement between a domain expert and the LLM-assisted non-experts, as well as fair agreement between the domain expert and the LLM model's predictions. In an additional experiment, we compare the performance of finetuned and default LLMs on this task. We have also introduced a specialized scientific entity annotation scheme for astronomy, validated by a domain expert. Our approach adopts a scholarly research contribution-centric perspective, focusing exclusively on scientific entities relevant to the research theme. The resultant dataset, containing 5,000 annotated astronomy article titles, is made publicly available.
- Abstract(参考訳): 本研究では,学術領域を対象としたNERモデル開発における課題の1つとして,適切なラベル付きデータの不足について考察する。
我々は、天文学の分野における科学的実体を注釈づけする分野の専門家を支援するために、微調整LDMモデルからの予測を用いて、このような協調的なプロセスがドメインの専門知識を近似できるかどうかを明らかにすることを目的としたアプローチを実験した。
本結果から, ドメインエキスパートとLLM支援非専門家との間には適度な合意が得られ, ドメインエキスパートとLLMモデルの予測との間には公平な合意が得られた。
追加実験では、このタスクにおける微調整およびデフォルトのLCMの性能を比較した。
我々はまた、専門分野の専門家によって検証された天文学のための専門的な科学的実体アノテーションスキームも導入した。
本手法は,研究テーマに関連する科学的実体にのみ焦点をあてた,学術研究中心の視点を取り入れたものである。
5000の注釈付き天文学記事のタイトルを含むデータセットが公開されている。
関連論文リスト
- Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [64.83462841029089]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文 参考訳(メタデータ) (2024-11-11T09:32:20Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph [18.41743815836192]
本稿では,構造化科学要約のプロパティを自動提案するために,Large Language Models (LLMs) を提案する。
本研究は,ORKGが手作業でキュレートした特性と,前述の最先端のLCMによって生成された特性とを総合的に比較した。
全体として、LLMは科学を構造化するためのレコメンデーションシステムとしての可能性を示しているが、科学的タスクや人間の専門知識の模倣との整合性を改善するために、さらなる微調整が推奨されている。
論文 参考訳(メタデータ) (2024-05-03T14:03:04Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - GeoGalactica: A Scientific Large Language Model in Geoscience [95.15911521220052]
大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。
我々は、LLMを地学に特化させ、さらに、地学の膨大なテキストでモデルを事前訓練し、また、カスタム収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。
我々はGeoGalacticaを65億のトークンを含む地球科学関連のテキストコーパスで訓練し、最大の地球科学固有のテキストコーパスとして保存する。
次に、100万対の命令チューニングでモデルを微調整する。
論文 参考訳(メタデータ) (2023-12-31T09:22:54Z) - AHAM: Adapt, Help, Ask, Model -- Harvesting LLMs for literature mining [3.8384235322772864]
本稿では、BERTopicトピックモデリングフレームワークのドメイン固有のテキストbfadaptationをガイドするAHAMの方法論とメトリクスについて述べる。
LLaMa2生成言語モデルを利用することで、ワンショット学習によるトピック定義を生成する。
トピック間の類似度評価には、言語生成および翻訳プロセスからのメトリクスを利用する。
論文 参考訳(メタデータ) (2023-12-25T18:23:03Z) - AstroLLaMA: Towards Specialized Foundation Models in Astronomy [1.1694367694169385]
我々は、arXivの30万以上の天文学的抽象化を用いて、LLaMA-2から微調整された7ビリオンパラメータモデルAstroLLaMAを紹介した。
我々のモデルは、最先端の基礎モデルよりも、より洞察に富み、科学的に関係のあるテキスト補完と埋め込み抽出を生成する。
公式リリースは、自動要約や会話エージェントの開発など、天文学に焦点を当てた研究を促進することを目的としている。
論文 参考訳(メタデータ) (2023-09-12T11:02:27Z) - Harnessing the Power of Adversarial Prompting and Large Language Models
for Robust Hypothesis Generation in Astronomy [0.0]
我々は、NASAの天体物理学データシステムから1000以上の論文を供給し、インコンテキストプロンプトを用いている。
本研究は,文脈内プロンプトを用いた仮説生成の大幅な向上を示唆するものである。
本研究は, GPT-4による知識ベースから重要な詳細を抽出し, 意味のある仮説を導出する能力について述べる。
論文 参考訳(メタデータ) (2023-06-20T16:16:56Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - Assessing Exoplanet Habitability through Data-driven Approaches: A
Comprehensive Literature Review [0.0]
レビューは、太陽系外惑星研究における新たなトレンドと進歩を照らすことを目的としている。
太陽系外惑星の検出、分類、可視化の相互作用に焦点を当てる。
太陽系外惑星研究で使用される機械学習アプローチの幅広いスペクトルを記述する。
論文 参考訳(メタデータ) (2023-05-18T17:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。