論文の概要: Carefully Structured Compression: Efficiently Managing StarCraft II Data
- arxiv url: http://arxiv.org/abs/2410.08659v1
- Date: Fri, 11 Oct 2024 09:33:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 22:45:00.729144
- Title: Carefully Structured Compression: Efficiently Managing StarCraft II Data
- Title(参考訳): 慎重に構造化された圧縮 - StarCraft IIデータの効率的な管理
- Authors: Bryce Ferenczi, Rhys Newbury, Michael Burke, Tom Drummond,
- Abstract要約: StarCraft IIのシリアライズフレームワークを導入し、データセットの生成とストレージのコストを削減する。
データセットを使用して、他のデータセットでトレーニングされた同等のモデルのパフォーマンスを超えるディープラーニングモデルをトレーニングします。
導入されたデータセット変換および利用フレームワークはオープンソースであり、同様の特徴を持つデータセットのフレームワークとして使用できる。
- 参考スコア(独自算出の注目度): 12.349721238822953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creation and storage of datasets are often overlooked input costs in machine learning, as many datasets are simple image label pairs or plain text. However, datasets with more complex structures, such as those from the real time strategy game StarCraft II, require more deliberate thought and strategy to reduce cost of ownership. We introduce a serialization framework for StarCraft II that reduces the cost of dataset creation and storage, as well as improving usage ergonomics. We benchmark against the most comparable existing dataset from \textit{AlphaStar-Unplugged} and highlight the benefit of our framework in terms of both the cost of creation and storage. We use our dataset to train deep learning models that exceed the performance of comparable models trained on other datasets. The dataset conversion and usage framework introduced is open source and can be used as a framework for datasets with similar characteristics such as digital twin simulations. Pre-converted StarCraft II tournament data is also available online.
- Abstract(参考訳): データセットの作成と保存は、多くのデータセットが単純なイメージラベルペアまたはプレーンテキストであるため、機械学習における入力コストの見過ごされがちである。
しかし、リアルタイム戦略ゲームStarCraft IIのような、より複雑な構造を持つデータセットは、所有権のコストを削減するために、より慎重な思考と戦略を必要とする。
StarCraft IIのシリアライズフレームワークを導入し、データセットの生成とストレージのコストを削減し、使用状況のエルゴノミクスを改善した。
私たちは、textit{AlphaStar-Unplugged}の最も類似したデータセットに対してベンチマークを行い、作成コストとストレージの両方の観点から、私たちのフレームワークの利点を強調します。
データセットを使用して、他のデータセットでトレーニングされた同等のモデルのパフォーマンスを超えるディープラーニングモデルをトレーニングします。
導入されたデータセット変換と利用のフレームワークはオープンソースであり、デジタルツインシミュレーションのような類似した特徴を持つデータセットのフレームワークとして使用できる。
事前変換されたStarCraft IIトーナメントのデータもオンラインで公開されている。
関連論文リスト
- Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images [60.42768987736088]
蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。
我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。
我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:11:40Z) - MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data [59.88075377088134]
合成データを用いたトレーニングにより3次元シーン再構成のスケールアップを提案する。
私たちの研究の中心は、700Kシーンからなる手続き的に生成された3DデータセットであるMega Synthです。
実験の結果,Mega Synthとの共同トレーニングや事前トレーニングにより,画像領域間で1.2~1.8dBPSNRの再現性が改善された。
論文 参考訳(メタデータ) (2024-12-18T18:59:38Z) - SiloFuse: Cross-silo Synthetic Data Generation with Latent Tabular Diffusion Models [2.112421773185401]
クロスサイロデータから高品質な合成を行うための新しい生成フレームワークであるSiloFuseを紹介する。
The impossibility of data reconstruction for vertically partitioned synthesis and Quantify privacy risk。
SiloFuseはGANよりも43.8ポイント、29.8ポイント高い。
論文 参考訳(メタデータ) (2024-04-04T08:48:30Z) - CoGenesis: A Framework Collaborating Large and Small Language Models for Secure Context-Aware Instruction Following [27.22804560751958]
本稿では,大規模(クラウドインフラストラクチャにホストされている)と小型(ローカルデバイスにデプロイされている)を統合し,論理的にプライバシー問題に対処する協調生成フレームワークを提案する。
1) ユーザコンテキストが提供されると大規模モデルの性能は良好に向上するが,そのようなコンテキストの欠如に苦慮する。
我々のフレームワークは、混合スケールモデルを利用して、競争性能を示し、プライバシー問題に対する実現可能な解決策を提供します。
論文 参考訳(メタデータ) (2024-03-05T17:15:28Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Active Data Acquisition in Autonomous Driving Simulation [0.0]
本稿では,アクティブデータ収集戦略の概念を提案する。
高品質なデータでは、コレクション密度の増加はデータセットの全体的な品質を改善することができる。
論文 参考訳(メタデータ) (2023-06-24T10:07:35Z) - Leveraging Data Recasting to Enhance Tabular Reasoning [21.970920861791015]
これまでの作業は、主に2つのデータ生成戦略に依存していた。
ひとつは人間のアノテーションで、言語学的に多様なデータを生成するが、拡張は困難である。
第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。
論文 参考訳(メタデータ) (2022-11-23T00:04:57Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。