論文の概要: Carefully Structured Compression: Efficiently Managing StarCraft II Data
- arxiv url: http://arxiv.org/abs/2410.08659v1
- Date: Fri, 11 Oct 2024 09:33:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 22:45:00.729144
- Title: Carefully Structured Compression: Efficiently Managing StarCraft II Data
- Title(参考訳): 慎重に構造化された圧縮 - StarCraft IIデータの効率的な管理
- Authors: Bryce Ferenczi, Rhys Newbury, Michael Burke, Tom Drummond,
- Abstract要約: StarCraft IIのシリアライズフレームワークを導入し、データセットの生成とストレージのコストを削減する。
データセットを使用して、他のデータセットでトレーニングされた同等のモデルのパフォーマンスを超えるディープラーニングモデルをトレーニングします。
導入されたデータセット変換および利用フレームワークはオープンソースであり、同様の特徴を持つデータセットのフレームワークとして使用できる。
- 参考スコア(独自算出の注目度): 12.349721238822953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creation and storage of datasets are often overlooked input costs in machine learning, as many datasets are simple image label pairs or plain text. However, datasets with more complex structures, such as those from the real time strategy game StarCraft II, require more deliberate thought and strategy to reduce cost of ownership. We introduce a serialization framework for StarCraft II that reduces the cost of dataset creation and storage, as well as improving usage ergonomics. We benchmark against the most comparable existing dataset from \textit{AlphaStar-Unplugged} and highlight the benefit of our framework in terms of both the cost of creation and storage. We use our dataset to train deep learning models that exceed the performance of comparable models trained on other datasets. The dataset conversion and usage framework introduced is open source and can be used as a framework for datasets with similar characteristics such as digital twin simulations. Pre-converted StarCraft II tournament data is also available online.
- Abstract(参考訳): データセットの作成と保存は、多くのデータセットが単純なイメージラベルペアまたはプレーンテキストであるため、機械学習における入力コストの見過ごされがちである。
しかし、リアルタイム戦略ゲームStarCraft IIのような、より複雑な構造を持つデータセットは、所有権のコストを削減するために、より慎重な思考と戦略を必要とする。
StarCraft IIのシリアライズフレームワークを導入し、データセットの生成とストレージのコストを削減し、使用状況のエルゴノミクスを改善した。
私たちは、textit{AlphaStar-Unplugged}の最も類似したデータセットに対してベンチマークを行い、作成コストとストレージの両方の観点から、私たちのフレームワークの利点を強調します。
データセットを使用して、他のデータセットでトレーニングされた同等のモデルのパフォーマンスを超えるディープラーニングモデルをトレーニングします。
導入されたデータセット変換と利用のフレームワークはオープンソースであり、デジタルツインシミュレーションのような類似した特徴を持つデータセットのフレームワークとして使用できる。
事前変換されたStarCraft IIトーナメントのデータもオンラインで公開されている。
関連論文リスト
- SiloFuse: Cross-silo Synthetic Data Generation with Latent Tabular Diffusion Models [2.112421773185401]
クロスサイロデータから高品質な合成を行うための新しい生成フレームワークであるSiloFuseを紹介する。
The impossibility of data reconstruction for vertically partitioned synthesis and Quantify privacy risk。
SiloFuseはGANよりも43.8ポイント、29.8ポイント高い。
論文 参考訳(メタデータ) (2024-04-04T08:48:30Z) - CoGenesis: A Framework Collaborating Large and Small Language Models for Secure Context-Aware Instruction Following [27.22804560751958]
本稿では,大規模(クラウドインフラストラクチャにホストされている)と小型(ローカルデバイスにデプロイされている)を統合し,論理的にプライバシー問題に対処する協調生成フレームワークを提案する。
1) ユーザコンテキストが提供されると大規模モデルの性能は良好に向上するが,そのようなコンテキストの欠如に苦慮する。
我々のフレームワークは、混合スケールモデルを利用して、競争性能を示し、プライバシー問題に対する実現可能な解決策を提供します。
論文 参考訳(メタデータ) (2024-03-05T17:15:28Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Active Data Acquisition in Autonomous Driving Simulation [0.0]
本稿では,アクティブデータ収集戦略の概念を提案する。
高品質なデータでは、コレクション密度の増加はデータセットの全体的な品質を改善することができる。
論文 参考訳(メタデータ) (2023-06-24T10:07:35Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。