論文の概要: FeynTune: Large Language Models for High-Energy Theory
- arxiv url: http://arxiv.org/abs/2508.03716v1
- Date: Thu, 24 Jul 2025 18:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-10 09:30:49.344226
- Title: FeynTune: Large Language Models for High-Energy Theory
- Title(参考訳): FeynTune:高エネルギー理論のための大規模言語モデル
- Authors: Paul Richmond, Prarit Agarwal, Borun Chowdhury, Vasilis Niarchos, Constantinos Papageorgakis,
- Abstract要約: 8ビリオンパラメータLlama-3.1モデルの20種類の微調整された変種として得られた理論高エネルギー物理のための大規模言語モデルについて述べる。
すべてのモデルは、2つの異なる低ランク適応微調整アプローチと異なるデータセットサイズを使用して微調整された。
我々は、高エネルギー理論物理学のための特殊言語モデルをさらに発展させるための洞察を導き出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present specialized Large Language Models for theoretical High-Energy Physics, obtained as 20 fine-tuned variants of the 8-billion parameter Llama-3.1 model. Each variant was trained on arXiv abstracts (through August 2024) from different combinations of hep-th, hep-ph and gr-qc. For a comparative study, we also trained models on datasets that contained abstracts from disparate fields such as the q-bio and cs categories. All models were fine-tuned using two distinct Low-Rank Adaptation fine-tuning approaches and varying dataset sizes, and outperformed the base model on hep-th abstract completion tasks. We compare performance against leading commercial LLMs (ChatGPT, Claude, Gemini, DeepSeek) and derive insights for further developing specialized language models for High-Energy Theoretical Physics.
- Abstract(参考訳): 8ビリオンパラメータLlama-3.1モデルの20種類の微調整された変種として得られた理論高エネルギー物理のための大規模言語モデルについて述べる。
各変種は、hp-th, hep-ph, gr-qcの異なる組み合わせから、arXiv抽象学(2024年8月まで)で訓練された。
比較研究として、q-bioやcsといった異なる分野からの抽象化を含むデータセットのモデルを訓練した。
すべてのモデルは、2つの異なる低ランク適応細調整アプローチと異なるデータセットサイズを使用して微調整され、ヘップス抽象的な完了タスクにおいてベースモデルより優れていた。
我々は、主要な商用LLM(ChatGPT、Claude、Gemini、DeepSeek)と性能を比較し、高エネルギー理論物理学のための特別な言語モデルをさらに発展させるための洞察を導出する。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field [0.0]
本稿では,異なる研究トピック間の意味的関係を識別する大規模モデルの能力について分析する。
我々はそのタスクを評価するためにIEEE Thesaurusに基づく金の標準を開発した。
Mixtral-8x7B、Dolphin-Mistral、Claude 3-7Bなど、いくつかの優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-11T10:11:41Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Learnable & Interpretable Model Combination in Dynamical Systems Modeling [0.0]
この研究は、動的システムモデリングにおいて、どのタイプのモデルが通常結合されるかを簡単に議論する。
本稿では,混合代数的,離散的,微分方程式に基づくモデルを表現可能なモデルのクラスを提案する。
最後に,モデルの任意の組み合わせを,容易に解釈可能な方法で記述できる新しいワイルドカードアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:17:11Z) - ModelGiF: Gradient Fields for Model Functional Distance [45.183991610710045]
モデル勾配場(ModelGiF)を導入し,事前学習モデルから同質表現を抽出する。
我々の主要な前提は、各事前学習された深層モデルが入力空間上のモデルGiFを一意に決定するということである。
本稿では,タスク関連性評価,知的財産保護,モデル未学習検証などのテストベッドを用いたモデルGiFの有効性を検証する。
論文 参考訳(メタデータ) (2023-09-20T02:27:40Z) - Representer Point Selection for Explaining Regularized High-dimensional
Models [105.75758452952357]
本稿では,高次元表現器と呼ぶサンプルベース説明のクラスを紹介する。
私たちのワークホースは、一般化された高次元モデルに対する新しい代表者定理である。
提案手法の実証的性能について,実世界の2進分類データセットと2つの推薦システムデータセットを用いて検討した。
論文 参考訳(メタデータ) (2023-05-31T16:23:58Z) - Automatic Model Selection with Large Language Models for Reasoning [33.93807127935167]
Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。
本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。
提案手法は,8つの推論データセット間で有意な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-23T17:57:59Z) - Scaling Laws for Generative Mixed-Modal Language Models [103.25737824352949]
個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。
具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。
また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
論文 参考訳(メタデータ) (2023-01-10T00:20:06Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。