論文の概要: INDUS: Effective and Efficient Language Models for Scientific Applications
- arxiv url: http://arxiv.org/abs/2405.10725v1
- Date: Fri, 17 May 2024 12:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 16:13:13.186986
- Title: INDUS: Effective and Efficient Language Models for Scientific Applications
- Title(参考訳): INDUS:科学応用のための効率的かつ効率的な言語モデル
- Authors: Bishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee,
- Abstract要約: 言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。
従来の研究では、ドメイン中心のコーパスを使用して訓練されたLLMが、特別なタスクでより良く機能することを示した。
我々は地球科学、生物学、物理学、生物物理学、惑星科学、天体物理学の分野に適した総合的なLLMスイートであるINDUSを開発した。
- 参考スコア(独自算出の注目度): 8.76933154920986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) trained on general domain corpora showed remarkable results on natural language processing (NLP) tasks. However, previous research demonstrated LLMs trained using domain-focused corpora perform better on specialized tasks. Inspired by this pivotal insight, we developed INDUS, a comprehensive suite of LLMs tailored for the Earth science, biology, physics, heliophysics, planetary sciences and astrophysics domains and trained using curated scientific corpora drawn from diverse data sources. The suite of models include: (1) an encoder model trained using domain-specific vocabulary and corpora to address natural language understanding tasks, (2) a contrastive-learning-based general text embedding model trained using a diverse set of datasets drawn from multiple sources to address information retrieval tasks and (3) smaller versions of these models created using knowledge distillation techniques to address applications which have latency or resource constraints. We also created three new scientific benchmark datasets namely, CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR (IR) to accelerate research in these multi-disciplinary fields. Finally, we show that our models outperform both general-purpose encoders (RoBERTa) and existing domain-specific encoders (SciBERT) on these new tasks as well as existing benchmark tasks in the domains of interest.
- Abstract(参考訳): 言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。
しかし、以前の研究では、ドメイン中心のコーパスを使用して訓練されたLLMが、専門的なタスクでより良く機能することを示した。
この中心的な洞察に触発されて、地球科学、生物学、物理学、ヘリオ物理、惑星科学、天体物理学領域に適した総合的なLLMスイートであるINDUSを開発し、多様なデータソースから得られたキュレートされた科学コーパスを用いて訓練した。
1) 自然言語理解タスクに対処するために,ドメイン固有の語彙とコーパスを用いて訓練されたエンコーダモデル,(2) 複数のソースから抽出された多様なデータセットを用いて訓練された対照的な学習ベースの汎用テキスト埋め込みモデル,(3) 待ち時間やリソース制約のあるアプリケーションに対処するために知識蒸留技術を用いて作成された,これらのモデルのより小さなバージョンである。
また、これらの分野の研究を加速するために、CLIMATE-CHANGE-NER(entity-recognition)、NASA-QA(extractive QA)、NASA-IR(IR)という3つの新しい科学的ベンチマークデータセットを作成しました。
最後に、我々のモデルは、これらの新しいタスクにおける汎用エンコーダ(RoBERTa)と既存のドメイン固有エンコーダ(SciBERT)、および関心領域における既存のベンチマークタスクよりも優れていることを示す。
関連論文リスト
- Exploring the Benefits of Domain-Pretraining of Generative Large Language Models for Chemistry [5.4665365335928024]
我々は、科学分野におけるオフ・ザ・シェルフとより標的となる基礎モデルを活用することのトレードオフについて検討する。
本研究は, ある科学領域, 化学領域に対するドメイン内事前学習の利点を考察し, ゼロショットおよび少数ショットプロンプトを用いたオープンソースオフザシェルフモデルと比較する。
その結果、ドメイン内ベースモデルではゼロショット設定でドメイン内タスクを合理的に実行することができるだけでなく、命令の微調整によるさらなる適応は、化学固有のタスクに顕著なパフォーマンスをもたらすことがわかった。
論文 参考訳(メタデータ) (2024-11-05T22:45:10Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - Knowledge AI: Fine-tuning NLP Models for Facilitating Scientific Knowledge Extraction and Understanding [0.0]
本研究は,Large Language Models (LLMs) の,特定の領域における科学的知識の理解と抽出における有効性について検討する。
トレーニング済みのモデルを採用し、科学領域のデータセットを微調整します。
論文 参考訳(メタデータ) (2024-08-04T01:32:09Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - MindLLM: Pre-training Lightweight Large Language Model from Scratch,
Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。
大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。
MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文 参考訳(メタデータ) (2023-10-24T12:22:34Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Pretrained Domain-Specific Language Model for General Information
Retrieval Tasks in the AEC Domain [5.949779668853556]
各種情報検索タスクにおいて,ドメインコーパスとドメイン固有の事前学習型DLモデルがどのように性能を向上させるかは明らかでない。
本研究は,ドメインコーパスと各種伝達学習技術がIRタスクのDLモデルの性能に与える影響について検討する。
BERTベースのモデルは、すべてのIRタスクにおいて従来の手法よりも劇的に優れ、F1スコアの最大5.4%と10.1%の改善があった。
論文 参考訳(メタデータ) (2022-03-09T14:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。