論文の概要: SARS-CoV-2 Coronavirus Data Compression Benchmark
- arxiv url: http://arxiv.org/abs/2012.12013v1
- Date: Mon, 21 Dec 2020 16:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 00:10:24.589038
- Title: SARS-CoV-2 Coronavirus Data Compression Benchmark
- Title(参考訳): SARS-CoV-2 コロナウイルスデータ圧縮ベンチマーク
- Authors: Innar Liiv
- Abstract要約: データは、Cncbinlm.govの重症急性呼吸器症候群ウイルス2データハブから得られた。
競争の進展はurlhttps://coronavirus.innar.comで報告される。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a lossless data compression competition that benchmarks
solutions (computer programs) by the compressed size of the 44,981 concatenated
SARS-CoV-2 sequences, with a total uncompressed size of 1,339,868,341 bytes.
The data, downloaded on 13 December 2020, from the severe acute respiratory
syndrome coronavirus 2 data hub of ncbi.nlm.nih.gov is presented in FASTA and
2Bit format. The aim of this competition is to encourage multidisciplinary
research to find the shortest lossless description for the sequences and to
demonstrate that data compression can serve as an objective and repeatable
measure to align scientific breakthroughs across disciplines. The shortest
description of the data is the best model; therefore, further reducing the size
of this description requires a fundamental understanding of the underlying
context and data. This paper presents preliminary results with multiple
well-known compression algorithms for baseline measurements, and insights
regarding promising research avenues. The competition's progress will be
reported at \url{https://coronavirus.innar.com}, and the benchmark is open for
all to participate and contribute.
- Abstract(参考訳): 本稿では、44,981連結SARS-CoV-2列の圧縮サイズで、総圧縮サイズ1,339,868,341バイトの解(コンピュータプログラム)をベンチマークするロスレスデータ圧縮競合を紹介する。
2020年12月13日、重篤な急性呼吸器症候群ウイルス2型データハブであるncbi.nlm.nih.govからダウンロードされたデータは、FASTAおよび2Bit形式で提示される。
このコンペティションの目的は、複数の学際的な研究を奨励し、シーケンスの最も短いロスレス記述を見つけ、データ圧縮が、科学的なブレークスルーを分野間で整合させる客観的かつ反復的な尺度として役立つことを実証することである。
データの最も短い記述は最良のモデルであり、従って、この記述のサイズをさらに小さくするには、基礎となるコンテキストとデータの根本的な理解が必要である。
本稿では,ベースライン計測のための複数のよく知られた圧縮アルゴリズムによる予備的な結果と,有望な研究手法に関する知見を示す。
競争の進展は \url{https://coronavirus.innar.com} で報告される。
関連論文リスト
- ODDN: Addressing Unpaired Data Challenges in Open-World Deepfake Detection on Online Social Networks [51.03118447290247]
オープンワールドデータアグリゲーション(ODA)と圧縮・ディスカード勾配補正(CGC)を組み合わせたオープンワールドディープフェイク検出ネットワーク(ODDN)を提案する。
細粒度分析と粗粒度分析の両方により,ODAは圧縮試料と原試料の相関関係を効果的に集約する。
CGCは、オンラインソーシャルネットワーク(OSN)における多種多様な圧縮方法のパフォーマンス向上のために、圧縮・ディスカード勾配補正を組み込んだ。
論文 参考訳(メタデータ) (2024-10-24T12:32:22Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - UniCompress: Enhancing Multi-Data Medical Image Compression with Knowledge Distillation [59.3877309501938]
Inlicit Neural Representation (INR) ネットワークは、その柔軟な圧縮比のため、顕著な汎用性を示している。
周波数領域情報を含むコードブックをINRネットワークへの事前入力として導入する。
これにより、INRの表現力が向上し、異なる画像ブロックに対して特異な条件付けが提供される。
論文 参考訳(メタデータ) (2024-05-27T05:52:13Z) - Sparse $L^1$-Autoencoders for Scientific Data Compression [0.0]
L1$-regularizedの高次元ラテント空間を用いたオートエンコーダの開発により,効率的なデータ圧縮手法を提案する。
本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T07:48:00Z) - Neural-based Compression Scheme for Solar Image Data [8.374518151411612]
我々は、NASAのデータ集約画像ミッションで使用されるニューラルネットワークに基づく損失圧縮手法を提案する。
本研究では,画像の局所構造と大域構造の両方を捉えるために,局所的および非局所的アテンションモジュールを備えた逆トレーニングニューラルネットワークを提案する。
このアルゴリズムをSDOデータ解析に使用するための概念実証として、圧縮画像を用いてコロナホール(CH)検出を行った。
論文 参考訳(メタデータ) (2023-11-06T04:13:58Z) - Approximating Human-Like Few-shot Learning with GPT-based Compression [55.699707962017975]
我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T05:22:33Z) - Scalable Hybrid Learning Techniques for Scientific Data Compression [6.803722400888276]
科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする
本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-12-21T03:00:18Z) - Exploring Autoencoder-based Error-bounded Compression for Scientific
Data [14.724393511470225]
我々は,SZモデルの観点から,エラーバウンドオートエンコーダベースのフレームワークを開発する。
設計したAEベースエラーバウンド圧縮フレームワークの主段の圧縮品質を最適化する。
論文 参考訳(メタデータ) (2021-05-25T07:53:32Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。