論文の概要: INDUS: Effective and Efficient Language Models for Scientific Applications
- arxiv url: http://arxiv.org/abs/2405.10725v3
- Date: Wed, 30 Oct 2024 19:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:14.815932
- Title: INDUS: Effective and Efficient Language Models for Scientific Applications
- Title(参考訳): INDUS:科学応用のための効率的かつ効率的な言語モデル
- Authors: Bishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Nishan Pantha, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kaylin Bugbee, Mike Little, Elizabeth Fancher, Irina Gerasimov, Armin Mehrabian, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grezes, Megan Ansdell, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panagiotis Vagenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Tsendgar Lee,
- Abstract要約: 言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。
我々は、地球科学、生物学、物理学、生物物理学、惑星科学、天体物理学の密接に関連する分野に合わせた総合的なLLMスイートであるINDUSを開発した。
本稿では,RoBERTa(汎用)とSCIBERT(ドメイン固有)の両方のエンコーダにおいて,新たなタスクや関心領域における既存のタスクよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 8.653859684720231
- License:
- Abstract: Large language models (LLMs) trained on general domain corpora showed remarkable results on natural language processing (NLP) tasks. However, previous research demonstrated LLMs trained using domain-focused corpora perform better on specialized tasks. Inspired by this insight, we developed INDUS, a comprehensive suite of LLMs tailored for the closely-related domains of Earth science, biology, physics, heliophysics, planetary sciences and astrophysics, and trained using curated scientific corpora drawn from diverse data sources. The suite of models include: (1) an encoder model trained using domain-specific vocabulary and corpora to address NLP tasks, (2) a contrastive-learning based text embedding model trained using a diverse set of datasets to address information retrieval tasks and (3) smaller versions of these models created using knowledge distillation for applications which have latency or resource constraints. We also created three new scientific benchmark datasets, CLIMATE-CHANGE NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR (IR) to accelerate research in these multi-disciplinary fields. We show that our models outperform both general-purpose (RoBERTa) and domain-specific (SCIBERT) encoders on these new tasks as well as existing tasks in the domains of interest. Furthermore, we demonstrate the use of these models in two industrial settings -- as a retrieval model for large-scale vector search applications and in automatic content tagging systems.
- Abstract(参考訳): 一般ドメインコーパスで訓練された大規模言語モデル(LLM)は,自然言語処理(NLP)タスクにおいて顕著な結果を示した。
しかし、以前の研究では、ドメイン中心のコーパスを使用して訓練されたLLMが、専門的なタスクでより良く機能することを示した。
この知見に触発されて、地球科学、生物学、物理学、ヘリオフィジカル、惑星科学、天体物理学の密接に関連する分野に適した総合的なLLMスイートであるINDUSを開発し、様々なデータソースから得られたキュレートされた科学コーパスを用いて訓練した。
1)NLPタスクに対処するためにドメイン固有語彙とコーパスを用いて訓練されたエンコーダモデル,(2)情報検索タスクに対処するための多様なデータセットセットを用いて訓練されたコントラスト学習ベースのテキスト埋め込みモデル,(3)レイテンシやリソース制約のあるアプリケーションのために知識蒸留を用いて作成されたこれらのモデルのより小さなバージョン。
また、これらの分野の研究を加速するために、CLIMATE-CHANGE NER(entity-recognition)、NASA-QA(extractive QA)、NASA-IR(IR)という3つの新しい科学ベンチマークデータセットを作成しました。
我々のモデルは、これらの新しいタスクにおける汎用(RoBERTa)およびドメイン固有(SCIBERT)エンコーダ、および関心領域における既存のタスクよりも優れていることを示す。
さらに、大規模ベクトル検索アプリケーションや自動コンテンツタグシステムにおける検索モデルとして、これらのモデルが2つの産業環境で使われることを実証する。
関連論文リスト
- Exploring the Benefits of Domain-Pretraining of Generative Large Language Models for Chemistry [5.4665365335928024]
我々は、科学分野におけるオフ・ザ・シェルフとより標的となる基礎モデルを活用することのトレードオフについて検討する。
本研究は, ある科学領域, 化学領域に対するドメイン内事前学習の利点を考察し, ゼロショットおよび少数ショットプロンプトを用いたオープンソースオフザシェルフモデルと比較する。
その結果、ドメイン内ベースモデルではゼロショット設定でドメイン内タスクを合理的に実行することができるだけでなく、命令の微調整によるさらなる適応は、化学固有のタスクに顕著なパフォーマンスをもたらすことがわかった。
論文 参考訳(メタデータ) (2024-11-05T22:45:10Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - Knowledge AI: Fine-tuning NLP Models for Facilitating Scientific Knowledge Extraction and Understanding [0.0]
本研究は,Large Language Models (LLMs) の,特定の領域における科学的知識の理解と抽出における有効性について検討する。
トレーニング済みのモデルを採用し、科学領域のデータセットを微調整します。
論文 参考訳(メタデータ) (2024-08-04T01:32:09Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - MindLLM: Pre-training Lightweight Large Language Model from Scratch,
Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。
大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。
MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文 参考訳(メタデータ) (2023-10-24T12:22:34Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Pretrained Domain-Specific Language Model for General Information
Retrieval Tasks in the AEC Domain [5.949779668853556]
各種情報検索タスクにおいて,ドメインコーパスとドメイン固有の事前学習型DLモデルがどのように性能を向上させるかは明らかでない。
本研究は,ドメインコーパスと各種伝達学習技術がIRタスクのDLモデルの性能に与える影響について検討する。
BERTベースのモデルは、すべてのIRタスクにおいて従来の手法よりも劇的に優れ、F1スコアの最大5.4%と10.1%の改善があった。
論文 参考訳(メタデータ) (2022-03-09T14:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。