論文の概要: SC-Phi2: A Fine-tuned Small Language Model for StarCraft II Macromanagement Tasks
- arxiv url: http://arxiv.org/abs/2409.18989v1
- Date: Tue, 17 Sep 2024 12:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 05:10:43.391232
- Title: SC-Phi2: A Fine-tuned Small Language Model for StarCraft II Macromanagement Tasks
- Title(参考訳): SC-Phi2: StarCraft II マクロ管理タスクのための微調整された小言語モデル
- Authors: Muhammad Junaid Khan, Gita Sukthankar,
- Abstract要約: 本稿では,マクロ管理タスクのための小型言語モデルであるSC-Phi2を紹介する。
Phi2、Gemma、DistilBERTのような小さな言語モデルは、大きな言語モデル(LLM)の合理化バージョンであり、実行に必要な電力とメモリを少なくする。
- 参考スコア(独自算出の注目度): 0.7826806223782052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces SC-Phi2, a fine-tuned StarCraft II small language model for macromanagement tasks. Small language models, like Phi2, Gemma, and DistilBERT, are streamlined versions of large language models (LLMs) with fewer parameters that require less power and memory to run. To teach Microsoft's Phi2 model about StarCraft, we create a new SC2 text dataset with information about StarCraft races, roles, and actions and use it to fine-tune Phi-2 with self-supervised learning. We pair this language model with a Vision Transformer (ViT) from the pre-trained BLIP-2 (Bootstrapping Language Image Pre-training) model, fine-tuning it on the MSC replay dataset. This enables us to construct dynamic prompts that include visual game state information. Unlike the large models used in StarCraft LLMs such as GPT-3.5, Phi2 is trained primarily on textbook data and contains little inherent knowledge of StarCraft II beyond what is provided by our training process. By using LoRA (Low-rank Adaptation) and quantization, our model can be trained on a single GPU. We demonstrate that our model performs well at micromanagement tasks such as build order and global state prediction with a small number of parameters.
- Abstract(参考訳): 本稿では,マクロ管理タスクのための小型言語モデルであるSC-Phi2を紹介する。
Phi2、Gemma、DistilBERTのような小さな言語モデルは、大きな言語モデル(LLM)の合理化バージョンであり、実行に必要な電力とメモリを少なくする。
StarCraftについてMicrosoftのPhi2モデルを教えるために、StarCraftのレース、ロール、アクションに関する情報を備えた新しいSC2テキストデータセットを作成し、それを自己教師型学習でPhi-2を微調整するために使用します。
この言語モデルと、事前訓練されたBLIP-2(Bootstrapping Language Image Pre-training)モデルからVit(ViT)を組み合わせ、MSCリプレイデータセットで微調整する。
これにより、視覚的なゲーム状態情報を含む動的プロンプトを構築することができる。
GPT-3.5などのStarCraft LLMで使用される大型モデルとは異なり、Phi2は主に教科書データに基づいて訓練されており、トレーニングプロセスによって提供されるもの以上のStarCraft IIの固有の知識はほとんど含まれていない。
LoRA(Low-rank Adaptation)と量子化によって、我々のモデルは単一のGPUでトレーニングできる。
我々は,ビルド順序や大域的状態予測などのマイクロマネジメントタスクにおいて,少数のパラメータを用いたモデルの有効性を実証した。
関連論文リスト
- Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。
この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。
本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:52:09Z) - Inheritune: Training Smaller Yet More Attentive Language Models [61.363259848264725]
Inherituneは、より小型で高性能な言語モデルを開発するための、シンプルで効果的なトレーニングレシピである。
Inheritune は OpenWebText-9B や FineWeb_edu のようなデータセット上で GPT-2 モデルのさまざまなサイズのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-12T17:53:34Z) - Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.68385617116854]
スケーリング法則は、言語モデルのサイズと能力の関係を記述している。
我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。
7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
論文 参考訳(メタデータ) (2024-04-08T11:11:31Z) - Unlocking Model Insights: A Dataset for Automated Model Card Generation [4.167070553534516]
25のMLモデルに対して500対の質問応答ペアのデータセットを導入する。
元の論文から回答を抽出するためにアノテーションを使用します。
また,ChatGPT-3.5,LLaMa,Galacticaを用いた実験では,これらのLMによる研究論文の理解に大きなギャップが認められた。
論文 参考訳(メタデータ) (2023-09-22T04:46:11Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。
LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。
Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文 参考訳(メタデータ) (2023-02-09T16:49:57Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文 参考訳(メタデータ) (2022-10-28T23:18:43Z) - CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。
我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。
提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文 参考訳(メタデータ) (2021-11-04T08:44:31Z) - Leveraging Transformers for StarCraft Macromanagement Prediction [1.5469452301122177]
本稿では,StarCraft IIのマクロ管理タスクであるグローバル状態とビルド順序予測の2つのタスクに対して,トランスフォーマーベースのニューラルアーキテクチャを導入する。
電流バイアスに悩まされるリカレントニューラルネットワークとは異なり、トランスフォーマーは非常に長い時間をかけてパターンを捉えることができる。
変換器の重要な利点の一つは、それらの一般化能力であり、我々は、転送学習環境で使用する場合、我々のモデルがさらに精度良く達成できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T15:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。