論文の概要: Xiwu: A Basis Flexible and Learnable LLM for High Energy Physics
- arxiv url: http://arxiv.org/abs/2404.08001v1
- Date: Mon, 8 Apr 2024 07:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:54:09.380897
- Title: Xiwu: A Basis Flexible and Learnable LLM for High Energy Physics
- Title(参考訳): Xiwu:高エネルギー物理のための柔軟な学習可能なLCM
- Authors: Zhengde Zhang, Yiyu Zhang, Haodong Yao, Jianwen Luo, Rui Zhao, Bo Huang, Jiameng Zhao, Yipu Liao, Ke Li, Lina Zhao, Jun Cao, Fazhi Qi, Changzheng Yuan,
- Abstract要約: 大規模言語モデル(LLM)は、急激な更新と変更の期間を経ている。
モデル自体を前進させながら、ユニークなドメイン知識を取得することは困難です。
Xiwuという名前の高度な大規模言語モデルシステムが開発され、最も先進的な基礎モデルの切り替えが可能になった。
- 参考スコア(独自算出の注目度): 8.483323041108774
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are undergoing a period of rapid updates and changes, with state-of-the-art (SOTA) model frequently being replaced. When applying LLMs to a specific scientific field, it's challenging to acquire unique domain knowledge while keeping the model itself advanced. To address this challenge, a sophisticated large language model system named as Xiwu has been developed, allowing you switch between the most advanced foundation models and quickly teach the model domain knowledge. In this work, we will report on the best practices for applying LLMs in the field of high-energy physics (HEP), including: a seed fission technology is proposed and some data collection and cleaning tools are developed to quickly obtain domain AI-Ready dataset; a just-in-time learning system is implemented based on the vector store technology; an on-the-fly fine-tuning system has been developed to facilitate rapid training under a specified foundation model. The results show that Xiwu can smoothly switch between foundation models such as LLaMA, Vicuna, ChatGLM and Grok-1. The trained Xiwu model is significantly outperformed the benchmark model on the HEP knowledge question-and-answering and code generation. This strategy significantly enhances the potential for growth of our model's performance, with the hope of surpassing GPT-4 as it evolves with the development of open-source models. This work provides a customized LLM for the field of HEP, while also offering references for applying LLM to other fields, the corresponding codes are available on Github.
- Abstract(参考訳): 大規模言語モデル(LLM)は急激な更新と変更の期間にあり、SOTA(State-of-the-art)モデルを頻繁に置き換えている。
LLMを特定の科学分野に適用する場合、モデル自体を前進させながら独自のドメイン知識を取得することは困難です。
この課題に対処するため、Xiwuという名前の洗練された大規模言語モデルシステムが開発され、最も高度な基礎モデルの切り替えを可能にし、モデルドメインの知識を素早く教えることができる。
本稿では,LLMを高エネルギー物理(HEP)分野に適用するためのベストプラクティスについて報告する。例えば,シードフィッション技術を提案し,いくつかのデータ収集・クリーニングツールを開発し,ドメインAI-Readyデータセットを迅速に取得し,ベクトルストア技術に基づいてジャストインタイム学習システムを実装した。
その結果、XiwuはLLaMA、Vicuna、ChatGLM、Grok-1といった基礎モデルの切り替えを円滑に行うことができた。
訓練されたXiwuモデルは、HEP知識質問およびコード生成のベンチマークモデルよりも大幅に優れています。
この戦略は,オープンソースモデルの発展とともに,GPT-4を超越して,我々のモデルの性能向上の可能性を大幅に向上させる。
この作業は、HEPのフィールド用にカスタマイズされたLLMを提供し、他のフィールドにLLMを適用するためのリファレンスを提供する。
関連論文リスト
- A Model Is Not Built By A Single Prompt: LLM-Based Domain Modeling With Question Decomposition [4.123601037699469]
現実世界のドメインモデリングでは、エンジニアは通常複雑なタスクを簡単に解けるサブタスクに分解する。
本稿では,開発者のモデリングプロセスに類似した質問分解によるLLMに基づくドメインモデリング手法を提案する。
予備的な結果から,本手法は単発プロンプトによるプロンプトよりも優れていた。
論文 参考訳(メタデータ) (2024-10-13T14:28:04Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Configurable Foundation Models: Building LLMs from a Modular Perspective [115.63847606634268]
LLMを多数の機能モジュールに分解する傾向が高まり、複雑なタスクに取り組むためにモジュールの一部とモジュールの動的アセンブリを推論することができる。
各機能モジュールを表すブロックという用語を造語し、モジュール化された構造をカスタマイズ可能な基礎モデルとして定義する。
検索とルーティング,マージ,更新,成長という,レンガ指向の4つの操作を提示する。
FFN層はニューロンの機能的特殊化と機能的ニューロン分割を伴うモジュラーパターンに従うことが判明した。
論文 参考訳(メタデータ) (2024-09-04T17:01:02Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - Large Language Model for Verilog Generation with Golden Code Feedback [29.135207235743795]
本研究は,ゴールドコードフィードバックを用いた強化学習を利用して,事前学習モデルの性能を向上させる手法を提案する。
我々は、最先端のSOTA(State-of-the-art)の結果をかなりの差で達成した。特に、我々の6.7Bパラメータモデルは、現行の13Bモデルと16Bモデルと比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-07-21T11:25:21Z) - Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。
LLMの能力をフル活用するための新しいフレームワークを提案する。
さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文 参考訳(メタデータ) (2024-06-17T17:59:43Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。