論文の概要: ORBIT: Cost-Effective Dataset Curation for Large Language Model Domain Adaptation with an Astronomy Case Study
- arxiv url: http://arxiv.org/abs/2412.14436v1
- Date: Thu, 19 Dec 2024 01:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:22.253479
- Title: ORBIT: Cost-Effective Dataset Curation for Large Language Model Domain Adaptation with an Astronomy Case Study
- Title(参考訳): ORBIT:天文学ケーススタディを用いた大規模言語モデルドメイン適応のための費用効果データセットの定式化
- Authors: Eric Modesitt, Ke Yang, Spencer Hulsey, Chengxiang Zhai, Volodymyr Kindratenko,
- Abstract要約: ORBITは、ノイズの多いWebソースから大量の高品質なドメイン固有データセットをキュレートするための費用効率のよい手法である。
1Bの天文学部分集合上の微調整テキストscLLaMA-3-8Bは、MMLUの天文学ベンチマークの性能を69%から76%に改善した。
このモデル (Orbit-LLaMA) はtextscLLaMA-3-8B-base より優れており, GPT-4o の評価では1000の天文学的な質問に対して 73% のケースで好んでいる。
- 参考スコア(独自算出の注目度): 26.39743358097732
- License:
- Abstract: Recent advances in language modeling demonstrate the need for high-quality domain-specific training data, especially for tasks that require specialized knowledge. General-purpose models, while versatile, often lack the depth needed for expert-level tasks because of limited domain-specific information. Domain adaptation training can enhance these models, but it demands substantial, high-quality data. To address this, we propose ORBIT, a cost-efficient methodology for curating massive, high-quality domain-specific datasets from noisy web sources, tailored for training specialist large language models. Using astronomy as a primary case study, we refined the 1.3T-token FineWeb-Edu dataset into a high-quality, 10B-token subset focused on astronomy. Fine-tuning \textsc{LLaMA-3-8B} on a 1B-token astronomy subset improved performance on the MMLU astronomy benchmark from 69\% to 76\% and achieved top results on AstroBench, an astronomy-specific benchmark. Moreover, our model (Orbit-LLaMA) outperformed \textsc{LLaMA-3-8B-base}, with GPT-4o evaluations preferring it in 73\% of cases across 1000 astronomy-specific questions. Additionally, we validated ORBIT's generalizability by applying it to law and medicine, achieving a significant improvement of data quality compared to an unfiltered baseline. We open-source the ORBIT methodology, including the curated datasets, the codebase, and the resulting model at \href{https://github.com/ModeEric/ORBIT-Llama}{https://github.com/ModeEric/ORBIT-Llama}.
- Abstract(参考訳): 言語モデリングの最近の進歩は、特に専門知識を必要とするタスクにおいて、高品質なドメイン固有トレーニングデータの必要性を示している。
汎用モデルは汎用的ではあるが、ドメイン固有情報に制限があるため、専門家レベルのタスクに必要な深さを欠くことが多い。
ドメイン適応トレーニングはこれらのモデルを強化することができるが、かなり高品質なデータを必要とする。
そこで本研究では,ノイズの多いWebソースから高品質なドメイン固有データセットを算出し,大規模言語モデルを訓練するためのコスト効率の高い手法であるORBITを提案する。
天文学を第一のケーススタディとして、我々は1.3T-token FineWeb-Eduデータセットを、天文学に焦点を当てた高品質の10B-tokenサブセットに洗練しました。
1Bの天文学サブセット上の微調整 \textsc{LLaMA-3-8B} は、MMLU の天文学ベンチマークのパフォーマンスを 69\% から 76\% に改善し、天文学固有のベンチマークである AstroBench の上位結果を得た。
さらに,このモデル(Orbit-LLaMA)は,1000の天文学的な質問に対して,73 %のケースで GPT-4o の評価を行った。
さらに,ORBITを法と医学に適用し,未フィルターベースラインと比較してデータ品質を大幅に向上させることにより,ORBITの一般化性を検証する。
我々は、ORBIT方法論をオープンソースとして公開し、キュレートされたデータセット、コードベース、および結果のモデルを \href{https://github.com/ModeEric/ORBIT-Llama}{https://github.com/ModeEric/ORBIT-Llama} で公開します。
関連論文リスト
- AstroM$^3$: A self-supervised multimodal model for astronomy [0.0]
本稿では,モデルが複数のモーダルから同時に学習できる自己教師型事前学習手法AstroM$3$を提案する。
具体的には、CLIP(Contrastive Language- Image Pretraining)モデルをトリモーダル設定に拡張し、時系列測光データ、スペクトル、天体物理メタデータの統合を可能にする。
以上の結果から,CLIP事前学習により時系列光度測定の分類性能が向上し,精度が84.6%から91.5%に向上した。
論文 参考訳(メタデータ) (2024-11-13T18:20:29Z) - AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy [4.729846733874557]
本研究は天文学における特殊なLSMを定量的に評価することを目的とする。
LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。
その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-29T16:02:22Z) - AstroMLab 1: Who Wins Astronomy Jeopardy!? [4.162245706139047]
このデータセットは、天文学と天文学の年次レビューから算出された4,425の多重選択質問からなる。
Claude-3.5-Sonnetは最大4.6ポイント、85.0%の精度でライバルを上回っている。
LLaMA-3-70b (80.6%) と Qwen-2-72b (77.7%) はいくつかの優れたプロプライエタリモデルと競合している。
論文 参考訳(メタデータ) (2024-07-15T19:28:14Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Domain Adaptation via Minimax Entropy for Real/Bogus Classification of
Astronomical Alerts [39.58317527488534]
我々は、HiTS、DES、ATLAS、ZTFの4つの異なるデータセットを用いて、実際の天体警報の分類のためのドメイン適応(DA)を研究する。
我々はこれらのデータセット間のドメインシフトを調査し、ミニマックスエントロピー(MME)を用いた微調整手法と半教師付き深度DAを用いて、素直な深度学習分類モデルを改善する。
微調整モデルとMMEモデルの両方が、ターゲットデータセットから来るクラス毎のラベル付き項目が1つも少なく、ベースモデルを大幅に改善していることがわかったが、MMEはソースデータセットのパフォーマンスを損なわない。
論文 参考訳(メタデータ) (2023-08-15T02:40:32Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - A Data-centric Framework for Improving Domain-specific Machine Reading
Comprehension Datasets [5.673449249014538]
低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。
データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。
論文 参考訳(メタデータ) (2023-04-02T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。