Fugu-MT 論文翻訳(概要): SARS-CoV-2 Coronavirus Data Compression Benchmark

論文の概要: SARS-CoV-2 Coronavirus Data Compression Benchmark

arxiv url: http://arxiv.org/abs/2012.12013v1
Date: Mon, 21 Dec 2020 16:41:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-20 00:10:24.589038
Title: SARS-CoV-2 Coronavirus Data Compression Benchmark
Title（参考訳）: SARS-CoV-2 コロナウイルスデータ圧縮ベンチマーク
Authors: Innar Liiv
Abstract要約: データは、Cncbinlm.govの重症急性呼吸器症候群ウイルス2データハブから得られた。競争の進展はurlhttps://coronavirus.innar.comで報告される。
参考スコア（独自算出の注目度）: 2.28438857884398
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a lossless data compression competition that benchmarks solutions (computer programs) by the compressed size of the 44,981 concatenated SARS-CoV-2 sequences, with a total uncompressed size of 1,339,868,341 bytes. The data, downloaded on 13 December 2020, from the severe acute respiratory syndrome coronavirus 2 data hub of ncbi.nlm.nih.gov is presented in FASTA and 2Bit format. The aim of this competition is to encourage multidisciplinary research to find the shortest lossless description for the sequences and to demonstrate that data compression can serve as an objective and repeatable measure to align scientific breakthroughs across disciplines. The shortest description of the data is the best model; therefore, further reducing the size of this description requires a fundamental understanding of the underlying context and data. This paper presents preliminary results with multiple well-known compression algorithms for baseline measurements, and insights regarding promising research avenues. The competition's progress will be reported at \url{https://coronavirus.innar.com}, and the benchmark is open for all to participate and contribute.
Abstract（参考訳）: 本稿では、44,981連結SARS-CoV-2列の圧縮サイズで、総圧縮サイズ1,339,868,341バイトの解(コンピュータプログラム)をベンチマークするロスレスデータ圧縮競合を紹介する。 2020年12月13日、重篤な急性呼吸器症候群ウイルス2型データハブであるncbi.nlm.nih.govからダウンロードされたデータは、FASTAおよび2Bit形式で提示される。このコンペティションの目的は、複数の学際的な研究を奨励し、シーケンスの最も短いロスレス記述を見つけ、データ圧縮が、科学的なブレークスルーを分野間で整合させる客観的かつ反復的な尺度として役立つことを実証することである。データの最も短い記述は最良のモデルであり、従って、この記述のサイズをさらに小さくするには、基礎となるコンテキストとデータの根本的な理解が必要である。本稿では,ベースライン計測のための複数のよく知られた圧縮アルゴリズムによる予備的な結果と,有望な研究手法に関する知見を示す。競争の進展は \url{https://coronavirus.innar.com} で報告される。

関連論文リスト

AstroCompress: A benchmark dataset for multi-purpose compression of astronomical data [31.271365337613606]
本稿では、天体物理学データに対するニューラル圧縮問題であるAstroCompressを紹介する。我々はデータに容易にアクセスでき、7つのロスレス圧縮手法をベンチマークするコードを提供します。以上の結果から,ロスレスニューラルネットワーク技術は観測所におけるデータ収集を向上する可能性が示唆された。
論文参考訳（メタデータ） (2025-06-10T00:32:30Z)
Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文参考訳（メタデータ） (2025-05-24T15:52:49Z)
Lossless Compression for LLM Tensor Incremental Snapshots [0.0]
私たちはLanguage Model(LMC)と呼ばれる効果的な圧縮ソリューションを構築します。 LMCの16コア並列実装は、それぞれ2.78 GiB/sと3.76 GiB/sの圧縮および減圧スループットを実現することができる。このパフォーマンスの向上は、最終的に必要なリソースを削減し、次のエポック前にデータをストレージシステムにコピーする時間を増やすことで、より高い周波数のチェックポイントを可能にします。
論文参考訳（メタデータ） (2025-05-14T21:24:14Z)
ODDN: Addressing Unpaired Data Challenges in Open-World Deepfake Detection on Online Social Networks [51.03118447290247]
オープンワールドデータアグリゲーション(ODA)と圧縮・ディスカード勾配補正(CGC)を組み合わせたオープンワールドディープフェイク検出ネットワーク(ODDN)を提案する。細粒度分析と粗粒度分析の両方により,ODAは圧縮試料と原試料の相関関係を効果的に集約する。 CGCは、オンラインソーシャルネットワーク(OSN)における多種多様な圧縮方法のパフォーマンス向上のために、圧縮・ディスカード勾配補正を組み込んだ。
論文参考訳（メタデータ） (2024-10-24T12:32:22Z)
Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。 data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文参考訳（メタデータ） (2024-10-17T22:28:07Z)
UniCompress: Enhancing Multi-Data Medical Image Compression with Knowledge Distillation [59.3877309501938]
Inlicit Neural Representation (INR) ネットワークは、その柔軟な圧縮比のため、顕著な汎用性を示している。周波数領域情報を含むコードブックをINRネットワークへの事前入力として導入する。これにより、INRの表現力が向上し、異なる画像ブロックに対して特異な条件付けが提供される。
論文参考訳（メタデータ） (2024-05-27T05:52:13Z)
Sparse $L^1$-Autoencoders for Scientific Data Compression [0.0]
L1$-regularizedの高次元ラテント空間を用いたオートエンコーダの開発により,効率的なデータ圧縮手法を提案する。本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。
論文参考訳（メタデータ） (2024-05-23T07:48:00Z)
Neural-based Compression Scheme for Solar Image Data [8.374518151411612]
我々は、NASAのデータ集約画像ミッションで使用されるニューラルネットワークに基づく損失圧縮手法を提案する。本研究では,画像の局所構造と大域構造の両方を捉えるために,局所的および非局所的アテンションモジュールを備えた逆トレーニングニューラルネットワークを提案する。このアルゴリズムをSDOデータ解析に使用するための概念実証として、圧縮画像を用いてコロナホール(CH)検出を行った。
論文参考訳（メタデータ） (2023-11-06T04:13:58Z)
Approximating Human-Like Few-shot Learning with GPT-based Compression [55.699707962017975]
我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
論文参考訳（メタデータ） (2023-08-14T05:22:33Z)
Scalable Hybrid Learning Techniques for Scientific Data Compression [6.803722400888276]
科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
論文参考訳（メタデータ） (2022-12-21T03:00:18Z)
Exploring Autoencoder-based Error-bounded Compression for Scientific Data [14.724393511470225]
我々は,SZモデルの観点から,エラーバウンドオートエンコーダベースのフレームワークを開発する。設計したAEベースエラーバウンド圧縮フレームワークの主段の圧縮品質を最適化する。
論文参考訳（メタデータ） (2021-05-25T07:53:32Z)
Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文参考訳（メタデータ） (2020-11-17T20:32:57Z)
CO-Search: COVID-19 Information Retrieval with Semantic Search, Question Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。 TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文参考訳（メタデータ） (2020-06-17T01:32:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。