論文の概要: AstroLLaMA-Chat: Scaling AstroLLaMA with Conversational and Diverse
Datasets
- arxiv url: http://arxiv.org/abs/2401.01916v2
- Date: Fri, 5 Jan 2024 07:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 17:15:13.541989
- Title: AstroLLaMA-Chat: Scaling AstroLLaMA with Conversational and Diverse
Datasets
- Title(参考訳): AstroLLaMA-Chat:会話データセットと対話データセットによるAstroLLaMAのスケーリング
- Authors: Ernest Perkowski, Rui Pan, Tuan Dung Nguyen, Yuan-Sen Ting, Sandor
Kruk, Tong Zhang, Charlie O'Neill, Maja Jablonska, Zechang Sun, Michael J.
Smith, Huiling Liu, Kevin Schawinski, Kartheik Iyer, Ioana Ciuc\u{a} for
UniverseTBD
- Abstract要約: 天文学に着目した質問応答におけるLLM性能向上の可能性について検討する。
専門的なトピック理解における顕著な改善を天文学コーパスのキュレートセットを用いて達成する。
AstroLLaMAの拡張として、ドメイン固有の会話データセット上で7B LLaMAモデルを微調整し、チャット対応のAstroLLaMAをコミュニティ利用向けにリリースする。
- 参考スコア(独自算出の注目度): 7.53209156977206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the potential of enhancing LLM performance in astronomy-focused
question-answering through targeted, continual pre-training. By employing a
compact 7B-parameter LLaMA-2 model and focusing exclusively on a curated set of
astronomy corpora -- comprising abstracts, introductions, and conclusions -- we
achieve notable improvements in specialized topic comprehension. While general
LLMs like GPT-4 excel in broader question-answering scenarios due to superior
reasoning capabilities, our findings suggest that continual pre-training with
limited resources can still enhance model performance on specialized topics.
Additionally, we present an extension of AstroLLaMA: the fine-tuning of the 7B
LLaMA model on a domain-specific conversational dataset, culminating in the
release of the chat-enabled AstroLLaMA for community use. Comprehensive
quantitative benchmarking is currently in progress and will be detailed in an
upcoming full paper. The model, AstroLLaMA-Chat, is now available at
https://huggingface.co/universeTBD, providing the first open-source
conversational AI tool tailored for the astronomy community.
- Abstract(参考訳): 天文学に着目した質問応答におけるLLM性能向上の可能性を検討する。
コンパクトな 7B パラメータ LLaMA-2 モデルを用いて、抽象、導入、結論を含む天文学のコーパスのキュレートセットにのみ焦点をあてることで、特殊トピックの理解において顕著な改善が達成される。
GPT-4 のような一般的な LLM は、より優れた推論能力により、より広範な質問応答シナリオに優れるが、限られたリソースによる連続事前学習は、特定のトピックにおけるモデル性能を向上させることができる。
さらに、AstroLLaMAの拡張として、ドメイン固有の会話データセット上で7B LLaMAモデルを微調整し、チャット対応のAstroLLaMAをコミュニティ利用向けにリリースする。
包括的な定量的ベンチマークは現在進行中であり、今後の全論文で詳述する予定である。
このモデル、astrollama-chatがhttps://huggingface.co/universetbdで利用可能になった。天文学コミュニティ向けにカスタマイズされた最初のオープンソースの会話型aiツールだ。
関連論文リスト
- AstroMLab 2: AstroLLaMA-2-70B Model and Benchmarking Specialised LLMs for Astronomy [4.729846733874557]
本研究は天文学における特殊なLSMを定量的に評価することを目的とする。
LLaMA-2-7BをベースとしたAstroLLaMAシリーズは,ベースモデルと比較して性能が低かった。
その結果,70Bモデル上での連続的事前訓練は大きな改善をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-29T16:02:22Z) - TopoChat: Enhancing Topological Materials Retrieval With Large Language Model and Multi-Source Knowledge [4.654635844923322]
大規模言語モデル (LLM) はテキスト生成タスクにおいて顕著な性能を示した。
TopoChatと呼ばれるトポロジカル材料のための対話システムを開発した。
TopoChatは、構造およびプロパティクエリ、マテリアルレコメンデーション、複雑なリレーショナル推論において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-09-10T06:01:16Z) - Fine-tuning LLMs for Autonomous Spacecraft Control: A Case Study Using Kerbal Space Program [42.87968485876435]
本研究は、自律型宇宙船制御における微調整大型言語モデル(LLM)の利用について検討する。
これらのモデルが、言語ベースの入力と出力を用いて、宇宙船を効果的に制御する方法を実証する。
論文 参考訳(メタデータ) (2024-08-16T11:43:31Z) - At First Sight: Zero-Shot Classification of Astronomical Images with Large Multimodal Models [0.0]
VLM(Vision-Language Multimodal Models)は、天文学におけるゼロショット分類の可能性を提供する。
低表面輝度銀河と人工物のゼロショット分類のために, GPT-4o と LLaVA-NeXT の2つのモデルについて検討した。
自然言語により、これらのモデルがトレーニングや微調整を伴わずに、かなりの精度(典型的には80%以上)を達成したことが示される。
論文 参考訳(メタデータ) (2024-06-24T18:17:54Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - LLaMA Pro: Progressive LLaMA with Block Expansion [66.39213657252279]
本稿では,トランスフォーマーブロックを拡張したLarge Language Models (LLM) の事前学習手法を提案する。
我々は,新たなコーパスのみを用いて拡張ブロックをチューニングし,大惨な忘れをすることなく,モデル知識を効率的に,効果的に改善する。
本稿では,LLaMA2-7Bの多元的基礎モデルであるLLaMA Pro-8.3Bのコードと数学のコーパスについて実験する。
論文 参考訳(メタデータ) (2024-01-04T18:59:12Z) - AstroLLaMA: Towards Specialized Foundation Models in Astronomy [1.1694367694169385]
我々は、arXivの30万以上の天文学的抽象化を用いて、LLaMA-2から微調整された7ビリオンパラメータモデルAstroLLaMAを紹介した。
我々のモデルは、最先端の基礎モデルよりも、より洞察に富み、科学的に関係のあるテキスト補完と埋め込み抽出を生成する。
公式リリースは、自動要約や会話エージェントの開発など、天文学に焦点を当てた研究を促進することを目的としている。
論文 参考訳(メタデータ) (2023-09-12T11:02:27Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。