論文の概要: Fine-Tuning and Evaluating Open-Source Large Language Models for the Army Domain
- arxiv url: http://arxiv.org/abs/2410.20297v1
- Date: Sun, 27 Oct 2024 00:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:20:00.729452
- Title: Fine-Tuning and Evaluating Open-Source Large Language Models for the Army Domain
- Title(参考訳): 陸軍領域におけるオープンソース大規模言語モデルの微調整と評価
- Authors: Daniel C. Ruiz, John Sell,
- Abstract要約: 現在のLarge Language Models (LLM) は、陸軍のユースケースにおける準最適性能を示している。
我々は、既存のドメイン固有性の欠如に対処するため、陸軍領域での使用にオープンソースLLMを適用する可能性について検討する。
TRACLMとMilBenchの作成に関する予備的な結果、モデル、メソッド、レコメンデーションを共有します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In recent years, the widespread adoption of Large Language Models (LLMs) has sparked interest in their potential for application within the military domain. However, the current generation of LLMs demonstrate sub-optimal performance on Army use cases, due to the prevalence of domain-specific vocabulary and jargon. In order to fully leverage LLMs in-domain, many organizations have turned to fine-tuning to circumvent the prohibitive costs involved in training new LLMs from scratch. In light of this trend, we explore the viability of adapting open-source LLMs for usage in the Army domain in order to address their existing lack of domain-specificity. Our investigations have resulted in the creation of three distinct generations of TRACLM, a family of LLMs fine-tuned by The Research and Analysis Center (TRAC), Army Futures Command (AFC). Through continuous refinement of our training pipeline, each successive iteration of TRACLM displayed improved capabilities when applied to Army tasks and use cases. Furthermore, throughout our fine-tuning experiments, we recognized the need for an evaluation framework that objectively quantifies the Army domain-specific knowledge of LLMs. To address this, we developed MilBench, an extensible software framework that efficiently evaluates the Army knowledge of a given LLM using tasks derived from doctrine and assessments. We share preliminary results, models, methods, and recommendations on the creation of TRACLM and MilBench. Our work significantly informs the development of LLM technology across the DoD and augments senior leader decisions with respect to artificial intelligence integration.
- Abstract(参考訳): 近年、LLM(Large Language Models)が広く採用され、軍事領域における応用の可能性への関心が高まっている。
しかし、LLMの現世代は、ドメイン固有語彙とジャーゴンの出現により、陸軍のユースケースに準最適性能を示す。
ドメイン内のLLMを完全に活用するために、多くの組織は、新しいLLMをスクラッチからトレーニングする際の禁止コストを回避するために、微調整を行ないました。
この傾向を踏まえて、我々は、既存のドメイン固有性の欠如に対処するために、陸軍領域での使用にオープンソースLLMを適用することの実現可能性について検討する。
調査の結果,研究・分析センター(TRAC, Army Futures Command, AFC)が微調整したLEMのファミリーであるTRACLMの3世代が作成された。
トレーニングパイプラインの継続的な改善を通じて、TRACLMの各繰り返しは、陸軍のタスクやユースケースに適用した場合に改善された機能を示しました。
さらに,本研究の微調整実験を通じて,陸軍領域固有のLLMの知識を客観的に定量化する評価フレームワークの必要性を認識した。
そこで本研究では,LLMの陸軍知識を,教義や評価から抽出したタスクを用いて効率的に評価する拡張可能なソフトウェアフレームワークであるMilBenchを開発した。
TRACLMとMilBenchの作成に関する予備的な結果、モデル、メソッド、レコメンデーションを共有します。
我々の研究は、国防総省にまたがるLLM技術の発展に大きく貢献し、人工知能の統合に関して上級指導者の判断を強化する。
関連論文リスト
- RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。
特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。
我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文 参考訳(メタデータ) (2024-08-05T14:01:15Z) - RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents [27.807695570974644]
大規模言語モデル(LLM)は、従来の自然言語処理以外の領域で顕著な成功を収めている。
LLMエージェントのプロンプトにおけるステップバイステップ命令を最適化する「段階的な降下」を行う新しい手法である textscRePrompt を提案する。
論文 参考訳(メタデータ) (2024-06-17T01:23:11Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。