論文の概要、ライセンス

# (参考訳) 科学データに対するネットワーク内キャッシュのアクセス動向 [全文訳有]

Access Trends of In-network Cache for Scientific Data ( http://arxiv.org/abs/2205.05563v1 )

ライセンス: CC BY-SA 4.0
Ruize Han, Alex Sim, Kesheng Wu, Inder Monga, Chin Guok, Frank W\"urthwein, Diego Davila, Justas Balcas, Harvey Newman(参考訳) 科学的なコラボレーションは、自分たちの仕事のために大量のデータに依存しており、その多くは、そのデータを世界中のユーザコミュニティに複製するために階層化されたシステムを使用している。 コミュニティ内の各ユーザは、分析タスクのために異なるデータのサブセットを選択することが多いが、研究グループのメンバーは、しばしば同様のデータオブジェクトを必要とする関連する研究トピックに取り組んでいる。 したがって、かなりの量のデータ共有が可能となる。 本研究では,南カリフォルニアペタバイトスケールキャッシュとして知られるフェデレーションストレージキャッシュのアクセストレースについて検討する。 このキャッシュシステムによるアクセスパターンとネットワークトラフィック削減の可能性を調べることにより、キャッシュ利用の予測可能性と、より一般的なネットワーク内データキャッシュの可能性を検討することを目的とする。 本研究は,この分散ストレージキャッシュにより,研究期間中にネットワークトラフィックを2.35パーセント削減できることを示す。 さらに, 機械学習モデルにより, 0.88 の精度でキャッシュ利用を予測できることを示した。 これは、そのようなキャッシュの使用が予測可能であり、ネットワーク内キャッシュのような複雑なネットワークリソースを管理するのに有用であることを示している。

Scientific collaborations are increasingly relying on large volumes of data for their work and many of them employ tiered systems to replicate the data to their worldwide user communities. Each user in the community often selects a different subset of data for their analysis tasks; however, members of a research group often are working on related research topics that require similar data objects. Thus, there is a significant amount of data sharing possible. In this work, we study the access traces of a federated storage cache known as the Southern California Petabyte Scale Cache. By studying the access patterns and potential for network traffic reduction by this caching system, we aim to explore the predictability of the cache uses and the potential for a more general in-network data caching. Our study shows that this distributed storage cache is able to reduce the network traffic volume by a factor of 2.35 during a part of the study period. We further show that machine learning models could predict cache utilization with an accuracy of 0.88. This demonstrates that such cache usage is predictable, which could be useful for managing complex networking resources such as in-network caching.
公開日: Wed, 11 May 2022 15:22:00 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] I N . s c [ 【私】 です。 sc [ 0.43
1 v 3 6 5 5 0 1 v 3 6 5 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Access Trends of In-network Cache for Scientific Data 科学データに対するネットワーク内キャッシュのアクセス動向 0.80
Ruize Han University of California, Berkeley ライトズハン カリフォルニア大学バークレー校 0.42
Berkeley, CA, USA hrz98@berkeley.edu バークレー, CA, USA hrz98@berkeley.edu 0.76
Lawrence Berkeley Nat’l Laboratory ローレンス・バークレー・ナットル研究所 0.52
Alex Sim Kesheng Wu アレックス・シム 華シェンウー(kesheng wu) 0.44
Berkeley, CA, USA {asim,kwu}@lbl.gov バークレー, CA, USA {asim,kwu}@lbl.gov 0.75
Inder Monga Chin Guok インダー・モンガ・チン・グーク(inder monga chin guok) 0.42
Energy Sciences Network エネルギー科学ネットワーク 0.79
Berkeley, CA, USA {imonga,chin}@es.net バークレー, ca, usa {imonga,chin}@es.net 0.58
University of California, San Diego カリフォルニア大学サンディエゴ校 0.52
California Institute of Technology カリフォルニア工科大学 0.55
Frank Würthwein フランク・ヴュルツヴァイン 0.55
Diego Davila La Jolla, CA, USA ディエゴ・ダビラ アメリカ合衆国カリフォルニア州ラ・ジョラ 0.59
{fkw,didavila}@ucsd.edu {fkw,didavila}@ucsd.edu 0.47
Justas Balcas Justas Balcas 0.42
Harvey Newman ハーヴェイ・ニューマン 0.50
Pasadena, CA, USA パサデナ、カリフォルニア州、アメリカ 0.79
ABSTRACT Scientific collaborations are increasingly relying on large volumes of data for their work and many of them employ tiered systems to replicate the data to their worldwide user communities. ABSTRACT の科学的なコラボレーションは、自分たちの仕事のために大量のデータに依存しており、その多くは、そのデータを世界規模のユーザコミュニティに複製するために、結びついたシステムを使用している。
訳抜け防止モード: ABSTRACTの科学的コラボレーションはますます大量のデータに依存している それらの多くは、世界中のユーザコミュニティにデータを複製するために、タイドシステムを採用しています。
0.65
Each user in the community often selects a different subset of data for their analysis tasks; however, members of a research group often are working on related research topics that require similar data objects. コミュニティ内の各ユーザは、分析タスクのために異なるデータのサブセットを選択することが多いが、研究グループのメンバーは、しばしば同様のデータオブジェクトを必要とする関連する研究トピックに取り組んでいる。 0.83
Thus, there is a significant amount of data sharing possible. したがって、かなりの量のデータ共有が可能となる。 0.81
In this work, we study the access traces of a federated storage cache known as the Southern California Petabyte Scale Cache. 本研究では,南カリフォルニアペタバイトスケールキャッシュとして知られるフェデレーションストレージキャッシュのアクセストレースについて検討する。 0.66
By studying the access patterns and potential for network traffic reduction by this caching system, we aim to explore the predictability of the cache uses and the potential for a more general in-network data caching. このキャッシュシステムによるアクセスパターンとネットワークトラフィック削減の可能性を調べることにより、キャッシュ利用の予測可能性と、より一般的なネットワーク内データキャッシュの可能性を検討することを目的とする。 0.70
Our study shows that this distributed storage cache is able to reduce the network traffic volume by a factor of 2.35 during a part of the study period. 本研究は,この分散ストレージキャッシュにより,研究期間中にネットワークトラフィックを2.35パーセント削減できることを示す。 0.67
We further show that machine learning models could predict cache utilization with an accuracy of 0.88. さらに, 機械学習モデルにより, 0.88 の精度でキャッシュ利用を予測できることを示した。 0.65
This demonstrates that such cache usage is predictable, which could be useful for managing complex networking resources such as in-network caching. これは、そのようなキャッシュの使用が予測可能であり、ネットワーク内キャッシュのような複雑なネットワークリソースを管理するのに有用であることを示している。 0.57
CCS CONCEPTS • Networks → Network performance analysis; • Computing methodologies → Distributed computing methodologies. ccsの概念 • ネットワーク → ネットワークパフォーマンス分析; • コンピューティング方法論 → 分散コンピューティング方法論。 0.83
KEYWORDS network cache, resource utilization, data pattern, prediction, xcache ACM Reference Format: Ruize Han, Alex Sim, Kesheng Wu, Inder Monga, Chin Guok, Frank Würthwein, Diego Davila, Justas Balcas, and Harvey Newman. KEYWORDSネットワークキャッシュ、リソース利用、データパターン、予測、xcache ACM参照フォーマット: Ruize Han, Alex Sim, Kesheng Wu, Inder Monga, Chin Guok, Frank Würthwein, Diego Davila, Justas Balcas, Harvey Newman。 0.77
2022. Access Trends of In-network Cache for Scientific Data. 2022. 科学データのためのインネットワークキャッシュのアクセス動向 0.60
In Proceedings of the Fifth International Workshop on Systems and Network Telemetry and Analytics (SNTA’22), June 30, 2022, Minneapolis, MN, USA. 第5回システム・ネットワークテレメトリ・アナリティクス国際ワークショップ(snta’22)の議事録において,2022年6月30日,米国mnのミネアポリスで開催された。 0.67
ACM, New York, NY, USA, 8 pages. ACM, New York, NY, USA, 8ページ。 0.80
https://doi.org/10.1 145/3526064.3534110 https://doi.org/10.1 145/3526064.3534110 0.15
Permission to make digital or hard copies of part or all of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. デジタル又はハード又はこの作品の一部又は全部を個人または教室で使用するための許可は、その複製が利益または商業上の利益のために作成、配布されず、かつ、この通知と第1ページの全引用を添付して、手数料なしで与えられる。
訳抜け防止モード: この作品の一部又は全部のデジタル又はハードコピーを個人または教室での使用許可 手数料なしで与えられます 利益や商業上の利益のためにコピーは作られない そのコピーには この通知と 最初のページの全文が書かれています
0.84
Copyrights for third-party components of this work must be honored. この作品のサードパーティコンポーネントの著作権を尊重しなければならない。 0.59
For all other uses, contact the owner/author(s). 他のすべての用途について、オーナー/著者に連絡してください。 0.47
SNTA’22, June 30, 2022, Minneapolis, MN, USA © 2022 Copyright held by the owner/author(s). SNTA’22、2022年6月30日 ミネアポリス、MN、アメリカ、2022年、所有者・著者が保有する著作権。 0.66
ACM ISBN 978-1-4503-9315-7/22 /06. ACM ISBN 978-1-4503-9315-7/22 /06 0.18
https://doi.org/10.1 145/3526064.3534110 https://doi.org/10.1 145/3526064.3534110 0.15
{jbalcas,newman}@hep.caltech.edu 1 INTRODUCTION The increasing volume of data from scientific experiments and simulations requires a vast amount of resources to store and distribute to geographically distributed users. jbalcas,newman}@hep.caltech.edu 1 INTRODUCTION 科学実験とシミュレーションのデータ量の増加には、地理的に分散したユーザに保存および配布するための膨大なリソースが必要である。 0.75
Many collaborations such as the Large Hadron Collider (LHC) utilize tiered systems to replicate the data in a few places, and the users could access their nearby storage sites. 大型ハドロン衝突型加速器(LHC)のような多くの共同作業では、いくつかの場所でデータを複製するために結合されたシステムを使用しており、ユーザーは近くのストレージサイトにアクセスできる。
訳抜け防止モード: 大型ハドロン衝突型加速器(LHC)のような多くの共同研究は、結合系を用いる。 データを数箇所で再現します ユーザーは近くのストレージサイトにアクセスできます
0.72
However, with the increasing cost of managing storage resources and the limited number of replicas, the large number of user accesses still create considerable demand on the wide-area network that increases the cost of data analyses, and could cause large-scale network traffic congestion [3, 6]. しかし,ストレージ資源の管理コストが増加し,レプリカ数が限られているため,データ解析のコストが増大し,大規模なネットワークトラフィックの混雑を引き起こす可能性がある広域ネットワークに対するユーザアクセスは依然としてかなりの需要を生んでいる[3,6]。 0.88
In many cases, we observe that a significant portion of the dataset is transferred multiple times over the network for various reasons. 多くの場合、データセットのかなりの部分が様々な理由でネットワーク上で複数回転送されていることが観察される。 0.76
To take advantage of this resue, the High-Energy Physics (HEP) community has established a number of regional storage caches [6, 7, 13]. この問題を解決するために、高エネルギー物理(HEP)コミュニティは、多くの地域ストレージキャッシュ[6, 7, 13]を確立した。 0.65
Analyses show that these caches could significantly reduce the data access latency as well as the traffic on the internet backbone [4]. 分析の結果、これらのキャッシュは、インターネットバックボーンのトラフィックだけでなく、データアクセスのレイテンシを大幅に削減できることがわかった [4]。 0.60
In the example of the HEP community, the largest data source is the LHC instrument at CERN in Switzerland. HEPコミュニティの例では、最大のデータソースはスイスのCERNのLHC機器である。 0.63
The main collaborations involved in generating and analyzing these data, known as ATLAS and CMS. ATLASとCMSとして知られるこれらのデータの生成と分析に関わる主要なコラボレーション。 0.79
Their Tier-1 storage sites in the US are at Brookhaven National Laboratory and Fermi National Accelerator Laboratory respectively. アメリカ合衆国のTier-1貯蔵施設はそれぞれブルックヘイブン国立研究所とフェルミ国立加速器研究所にある。 0.65
The wide-area network traffic for retrieving and replicating their data is primarily carried on the Energy Science Network (ESnet), one of the key components of the internet backbone especially designed for our nation’s science and research communities. データの検索と複製のための広域ネットワークトラフィックは、主に、インターネットバックボーンの重要なコンポーネントであるEnergy Science Network(ESnet)で行われている。
訳抜け防止モード: データの検索と複製のための広域ネットワークトラフィックは、主にエネルギサイエンスネットワーク(esnet)が担っている。 インターネットのバックボーンの重要な要素の一つは、我が国の科学研究コミュニティのために特別に設計されたものだ。
0.68
Because the data lakes have demonstrated their effectiveness in reducing the load on the internet backbone, we are interested in exploring the predictability of their impact and the potential for providing a more general distributed storage caching strategy known as in-network caching [11, 12, 18]. データレイクは、インターネットバックボーンの負荷を減らす効果を実証しているため、その影響の予測可能性と、ネットワーク内キャッシング[11,12,18]として知られるより一般的な分散ストレージキャッシング戦略を提供する可能性を検討している。 0.74
More specifically, our work starts with a study of data access trends with one of the data lakes named Southern California Petabyte Scale Cache (SoCal Repo) [7]. 具体的には、Southern California Petabyte Scale Cache (SoCal Repo) [7]という名のデータレイクを使って、データアクセストレンドの調査から始めています。 0.82
We examine the trends of network traffic volume and establish a machine learning model to predict the future network bandwidth requirement for the regional data cache. 本稿では,ネットワークトラフィック量の動向を考察し,地域データキャッシュの今後のネットワーク帯域幅要件を予測するための機械学習モデルを確立する。 0.83
The key contributions of this paper can be summarized as follows: (1) our study finds find that the SoCal Repo was able to reduce the traffic by 23% over the study period, and by 57% under normal usage; 本稿の重要な貢献は,(1)SoCal Repoは,研究期間中に23%,通常使用時の57%のトラフィック削減が可能であったこと,である。
訳抜け防止モード: 本論文の主な貢献は以下のとおりである。 : (1)研究結果から, ソカルレポが有効であったことが判明した。 調査期間中に23パーセント、通常使用時に57パーセントのトラヒック低減を図る。
0.71
英語(論文から抽出)日本語訳スコア
(2) this network traffic reduction is stable and predictable by LSTM, with 88.4% accuracy; (3) because of the network traffic reduction, we recommend a general in-network cache to supplement the existing data lakes from HEP to benefit all science user communities. 2) このネットワークトラヒック削減は,lstmでは88.4%の精度で安定かつ予測可能であり,(3)ネットワークトラヒック低減のため,hepから既存のデータレイクを補完する汎用インネットワークキャッシュを推奨し,すべての科学ユーザコミュニティに利益をもたらす。 0.84
2 BACKGROUND Southern California Petabyte Scale Cache (SoCal Repo) [7] is a regional "Data Lake" [6, 13] based on XCache [2, 7, 19]. 2 BACKGROUND Southern California Petabyte Scale Cache (SoCal Repo) [7] は XCache [2, 7, 19] に基づいた地域データレイク [6, 13] です。 0.78
XRootD system is the bases for the XCache, and supports unique capabilities for data distribution and access, especially for large collaborations such as the Large Hadron Collider (LHC) [1, 5]. XRootDシステムはXCacheの基盤であり、特にLHC(Large Hadron Collider) [1, 5]のような大規模なコラボレーションにおいて、データ分散とアクセスのためのユニークな機能をサポートしている。 0.81
SoCal Repo consists of 24 data cache nodes at Caltech, UCSD, and ESnet with approximately 2.5PB of storage capacity, supporting client computing jobs for High-Luminosity Large Hadron Collider (HL-LHC) analysis in Southern California. SoCal RepoはCaltech、UCSD、ESnetの24のデータキャッシュノードで構成され、約2.5PBのストレージ容量を持ち、南カリフォルニアのHL-LHC分析のためのクライアントコンピューティングジョブをサポートする。 0.78
In this cache installation, there are 11 nodes at Caltech with storage sizes ranging from 96TB to 388TB; 12 nodes at UCSD with 24TB each node; one node at an ESnet endpoint at Sunnyvale, CA with 44TB of storage. このキャッシュインストールには、96TBから388TBまでのストレージサイズを持つCaltechの11ノード、24TBのUCSDの12ノード、44TBのストレージを持つカリフォルニア州サニーベールのESnetエンドポイントにある1ノードがある。 0.75
The two southern California sites are within 200 km from each other and have a round trip time (RTT) of less than 3 milliseconds (ms) from each other, while the ESnet node is about 700 km away from UCSD, with an RTT of about 10ms. 2つの南カリフォルニアのサイトは互いに200km以内にあり、互いに3ミリ秒未満のラウンドトリップタイム(rtt)を持ち、esnetノードはucsdから約700km離れており、rttは約10ミリ秒である。 0.65
One node at Caltech is designated for NANOAOD and all other cache nodes are for MINIAOD [14]. Caltechの1つのノードはNANOAODに指定され、他のすべてのキャッシュノードはMINIAOD[14]に指定されます。 0.64
When a user’s computing job needs a file from SoCal Repo, the system first looks up the location of the file using the "Trivial File Catalogue" (TFC) [8, 9]. ユーザの計算ジョブがsocalリポジトリからのファイルを必要とする場合、システムはまず "trivial file catalog" (tfc) [8, 9] を使ってファイルの位置を調べる。 0.68
Following the established convention for the tiered storage system, the data files are grouped into the namespace for the local cache nodes and the TFC points to a "local redirector" in XRootD where the "local redirector" knows all regional caches. 階層型ストレージシステムの確立された規約に従って、データファイルはローカルキャッシュノードの名前空間にグループ化され、TFCはXRootDの"ローカルリダイレクト"を指し、"ローカルリダイレクト"はすべてのローカルキャッシュを知っている。 0.80
If one of the cache nodes has the file, the redirector routes the application request to the node. キャッシュノードの1つがファイルを持っている場合、リディレクトリはアプリケーション要求をノードにルーティングする。 0.75
If none of them has the file, one of them is told to invoke an XRootD client to fetch the file. ファイルを持っていない場合は、XRootDクライアントを呼び出してファイルを取得するように指示される。
訳抜け防止モード: もし誰もファイルを持っていないなら、その中の1つに ファイルを取得するためにXRootDクライアントを呼び出す。
0.81
The XRootD client is configured to get the file from the national XRootD data federation to the local cache node. xrootdクライアントは、national xrootdデータフェデレーションからローカルキャッシュノードにファイルを取得するように構成されている。
訳抜け防止モード: XRootD クライアントは設定されます to get the file from the national XRootD data federation to the local cache node。
0.86
Local cache nodes do not connect to another cache node but always connect to the higher tier of the federation. ローカルキャッシュノードは別のキャッシュノードに接続しないが、常にフェデレーションの上位層に接続する。 0.82
In CMS collaboration, data federation is hierarchical where the US is one flat layer and the rest of the world is another flat layer. CMSのコラボレーションでは、データフェデレーションは階層的であり、米国は1つの平らな層であり、残りの世界は別の平らな層である。
訳抜け防止モード: CMSのコラボレーションでは、データフェデレーションは階層的です アメリカは平らな層で、世界の他の層は平らな層です。
0.77
By design, each file available to the CMS collaboration has at least a copy somewhere in the US. 設計上、CMSのコラボレーションに利用できるファイルは、少なくとも米国内のどこかでコピーされている。 0.75
Thus it is possible to find a copy of any file needed for analysis even though the lookup mechanism in TFC does not always guarantee to recommend a replica in the US. したがって、TFCのルックアップ機構が常に米国のレプリカを推奨することを保証していないにもかかわらず、分析に必要なファイルのコピーを見つけることができる。 0.80
Most of the file reads in CMS based on XRootD are vectors of byte ranges, and a cache miss leads to a vector of byte ranges getting fetched. XRootDをベースとしたCMSで読み込みされるファイルのほとんどはバイト範囲のベクトルであり、キャッシュミスはバイト範囲のベクトルをフェッチする。 0.74
When new cache nodes have been added to the local cache nodes, all cache misses go to the new cache nodes first, so that the distributed cache nodes avoid deletions of old data as long as there is a new space to fill. ローカルのキャッシュノードに新しいキャッシュノードが追加された場合、すべてのキャッシュミスが最初に新しいキャッシュノードに反映されるため、新しいスペースがある限り、分散キャッシュノードは古いデータの削除を避けることができる。 0.81
It means that cache nodes that have been around for some time will tend to have data that is not of interest to as many users, and those data will eventually get deleted when running out of space. つまり、しばらくの間存在していたキャッシュノードは、多くのユーザにとって関心のないデータを持っている傾向があり、スペースがなくなったら最終的にそのデータは削除される。 0.77
Adding more cache nodes to an already full distributed cache invariably leads to skewed distributions of data access patterns. すでに完全な分散キャッシュにキャッシュノードを追加すると、常にデータアクセスパターンの歪んだ分散が発生する。 0.74
This happened around Aug. 26, 2021 when 7 new nodes at Caltech (xrd 3-8, 11) are added to the system, and around Sep. 30, 2021 when 2 new nodes at Caltech (xrd 9-10) are added to the system. これは、2021年8月26日ごろにCaltechの7つの新しいノード(xrd 3-8, 11)がシステムに追加され、2021年9月30日ごろにCaltechの2つの新しいノード(xrd 9-10)がシステムに追加されたときに起こった。 0.72
The new cache nodes get the new data. 新しいキャッシュノードは、新しいデータを取得する。 0.85
The new data is of more interest and leads to more accesses. 新しいデータはより興味を持ち、より多くのアクセスにつながる。 0.84
Old data does not 古いデータはそうではない 0.64
get deleted as there is still space on the new nodes. 新しいノードにはまだスペースがあるので、削除します。 0.78
At some point, it will resolve itself, but may take some time to resolve. ある時点では解決するが、解決には多少時間がかかるかもしれない。 0.81
3 DATA ACCESS TRENDS Our work is based on monitoring information collected from the SoCal Repo between July 2021 and January 2022. 3 Data ACCESS TRENDS 我々の研究は、2021年7月から2022年1月までのSoCal Repoから収集したモニタリング情報に基づいています。
訳抜け防止モード: 3 Data ACCESS TRENDS 私たちの仕事は、 2021年7月から2022年1月までのソカルレポから収集したモニタリング情報。
0.61
The collected information includes the following attributes about every data access request: user id, file id, file path, file size, the data transmission start time, the data transmission finished time, the total size of the transmission, whether the data request is a data transfer (cache miss) or data share (cache hit), which cache node the request is sent to, whether the transmission is successful, and so on. 収集された情報は、データアクセス要求毎に以下の属性を含む:ユーザid、ファイルid、ファイルパス、ファイルサイズ、データ送信開始時間、データ送信終了時間、送信の総サイズ、データ要求がデータ転送(キャッシュミス)であるか、データ共有(キャッシュヒット)であるか、リクエストが送信されたキャッシュノードが送信されたか、送信が成功したかなど。 0.73
A total of about 7.5 million data access requests are included in this study. この研究には合計750万件のデータアクセス要求が含まれている。 0.81
Table 1: Summary statistics for data accesses 表1:データアクセスに関する統計統計 0.87
July 2021 Aug 2021 Sep 2021 Oct 2021 Nov 2021 Dec 2021 Jan 2022 Total 2021年7月 2021年8月 2021年 10月 2021年 11月 2021年 12月 2021年 1月 0.65
Daily Average # of Accesses 日平均 アクセスの# 0.51
1,182,717 1,078,340 1,089,292 1,058,071 878,703 983,723 1,207,332 7,478,178 35,441.60 1,182,717 1,078,340 1,089,292 1,058,071 878,703 983,723 1,207,332 7,478,178 35,441.60 0.14
Data Transfer Size (TB) 385.78 206.94 206.96 412.18 649.30 1,257.89 2,238.59 5,357.67 25.51 データ転送 Size (TB) 385.78 206.94 206.96 412.18 649.30 1,257.89 2,238.59 5,357.67 25.51 0.51
Shared Data Size (TB) 519.25 313.46 257.18 141.91 82.67 130.03 148.26 1,592.79 共有データサイズ(TB) 519.25 313.46 257.18 141.91 82.67 130.03 148.26 1,592.79 0.51
7.55 Net Traffic Reduction 7.55 ネットトラフィックの削減 0.51
57.37% 60.23% 55.41% 25.61% 11.29% 9.37% 6.21% 22.91% 22.83% 57.37% 60.23% 55.41% 25.61% 11.29% 9.37% 6.21% 22.91% 22.83% 0.30
Table 1 shows the basic statistics about the data accesses to all cache nodes during the study period (from July 2021 to Jan. 2022). 表1は、調査期間(2021年7月から2022年1月)のすべてのキャッシュノードへのデータアクセスに関する基本的な統計を示す。 0.77
If an "access" could be satisfied with a file in a cache, then it is a cache hit. もし"アクセス"がキャッシュ内のファイルで満足できるなら、キャッシュヒットとなる。 0.60
On the other hand, if the requested file needs to be retrieved from a remote storage site, then it is a cache miss. 一方、リモートストレージサイトから要求されたファイルを取得する必要がある場合、キャッシュミスとなる。 0.63
Cache miss would require a data file to be transferred from a remote site over the wide-area network. キャッシュミスは、リモートサイトから広域ネットワーク上で転送されるデータファイルを必要とする。 0.76
The "Data Transfer Size" in the table is the total volume of data transferred to satisfy the cache misses. テーブル内の"データ転送サイズ"は、キャッシュミスを満たすために転送されるデータの総量である。 0.82
The "Shared Data Size" refers to the total volume from the cache hits. 共有データサイズ」とは、キャッシュヒットからの総ボリュームを指す。 0.73
The "Net Traffic Reduction" is the percentage of network traffic reduction by the cache system, calculated monthly by (shared data size) / (total access size). ネットワークトラフィック削減」とは、キャッシュシステムによるネットワークトラフィック削減の割合であり、(共有データサイズ)/(トータルアクセスサイズ)で毎月計算される。 0.74
Table 1 shows the net traffic reduction was about 60% during the first three months of the observation, but dropped to as low as 6% in January 2022. 表1は、観測の最初の3ヶ月でトラフィックが約60%減少したことを示しているが、2022年1月に6%まで減少した。 0.81
This drop is due to a usage change among the physicists in the region, as some users are streaming data through the caching system. この減少は、一部のユーザがキャッシュシステムを通じてデータをストリーミングしているため、この分野の物理学者の間での利用状況が変わったためである。
訳抜け防止モード: この減少は、地域の物理学者の間での利用状況の変化によるものだ。 キャッシュシステムを通じてデータをストリーミングするユーザもいます
0.72
Figure 1: Legend for each node in the regional cache 図1:地域キャッシュの各ノードの伝説 0.64
Figure 1 indicates the color for each node in all the following 図1は、以下のすべてのノードの色を示しています。 0.75
plots unless specified otherwise. プロットを指定しない限り 0.65
The monitoring system had troubles on Nov. 24, 2021, and from Dec. 15, 2021 to Dec. 18, 2021. 2021年11月24日、2021年12月15日から2021年12月18日まで、監視システムに問題があった。 0.65
So there are no data during these periods, showing gaps in the following daily plots during these periods. そのため、この期間のデータはなく、以下の期間の毎日のプロットのギャップを示している。 0.73
Figure 2a shows the daily total data access counts, combining the number of date shares (i.e. cache hits) and data transfers (i.e. cache 図2aは、日毎のデータアクセス数を示し、日付共有数(キャッシュヒット)とデータ転送数(キャッシュヒット)を組み合わせたものです。 0.82
2021-072021-082021-0 92021-102021-112021- 122022-012022-020200 00400006000080000xrd -cache-1xrd-cache-2x rd-cache-3xrd-cache- 4xrd-cache-5xrd-cach e-6xrd-cache-7xrd-ca che-8xrd-cache-9xrd- cache-10xrd-cache-11 esnet-xcache-01xcach e-00xcache-01xcache- 02xcache-03xcache-04 xcache-05xcache-06xc ache-07xcache-08xcac he-10xcache-11 2021-072021-082021-0 92021-12021-122022-0 12022-02020000400006 000080000Xrd-cache-1 xrd-cache-2xrd-cache -3xrd-cache-4xrd-cac he-5xrd-cache-6xrd-c ache-7xrd-cache-8xrd -cache-9xrd-cache-10 xrd-cache-11esnet-xc ache-01xcache-00xcac he-01xcache-02xcache -03xcache-04xcache-0 5xcache-06xcache-08x cache-08xcache-08xca che-08xcache-11 0.01
英語(論文から抽出)日本語訳スコア
(a) Daily (a) Daily (a)毎日 (a)毎日 0.73
Figure 2: Total data access counts in the regional cache. 図2: 地域キャッシュにおけるデータアクセス総数。 0.73
The number of access is relatively stable during the time period of this study. 本研究の期間中,アクセス数は比較的安定している。 0.80
Figure 4: Average data size per access in the regional cache 図4: 地域キャッシュにおけるアクセス当たりの平均データサイズ 0.91
(b) Weekly (b) weekly (b)週刊 (b)週刊 0.34
(a) Daily Figure 3: Total data access sizes in the regional cache (a)毎日 図3: 地域キャッシュにおける総データアクセスサイズ 0.79
(b) Weekly misses), and the distribution among the cache nodes. (b)週刊 キャッシュノード間の分散。 0.33
Figure 2b shows the weekly total data access counts and distribution among the cache nodes. 図2bは、キャッシュノード間の毎週の総データアクセス数と分布を示しています。 0.72
The number of total accesses is fairly consistent throughout the study period, fluctuating around 31,000 per day. 総アクセス数は研究期間を通じて一定であり、1日あたり約31,000回である。 0.72
Each cache node evenly receives file requests before September 2021. 各キャッシュノードは2021年9月までにファイル要求を均等に受信する。 0.60
When new cache nodes have been added to the regional cache, many of the cache accesses have been sent to the new cache nodes evenly with the previously described reason in Section 2. 新しいキャッシュノードがリージョンキャッシュに追加されると、多くのキャッシュアクセスがセクション2で前述した理由と等しく新しいキャッシュノードに送信される。
訳抜け防止モード: 新しいキャッシュノードがリージョンキャッシュに追加されたとき、 キャッシュアクセスの多くは、前述した第2節の理由により、新しいキャッシュノードに均等に送信されている。
0.81
Figure 3a shows the daily total data access sizes, combining shared data sizes (i.e. cache hits) and transferred data sizes (i.e. cache misses) on each cache node. 図3aは、各キャッシュノードの共有データサイズ(キャッシュヒット)と転送データサイズ(キャッシュミス)を組み合わせた、毎日の総データアクセスサイズを示しています。 0.88
Figure 3b shows the weekly total data access sizes among cache nodes. 図3bは、キャッシュノード間の毎週のデータアクセスサイズを示しています。 0.68
The total access size is increasing over the study periods indicating that the requested data size grows while the number of accesses remains about the same each month. 総アクセスサイズは調査期間中に増加しており、要求されたデータサイズが増加する一方、アクセス数は毎月ほぼ同じである。 0.77
When traffic is relatively small, the daily traffic volume is about 21TB per day. 交通量が比較的少ない場合、1日あたりの交通量は約21TBである。 0.70
After new cache nodes have been added to the regional cache, many of the data access traffic have リージョンキャッシュに新しいキャッシュノードが追加された後、多くのデータアクセストラフィックが増加した。 0.81
(a) Daily (b) Weekly (a)毎日 (b)週刊 0.54
Figure 5: Total sizes of the cache hits in the regional cache been sent to the new cache nodes, and it is expected by the policy described in Section 2. 図5: リージョンキャッシュにおけるキャッシュヒットの総サイズは、新しいキャッシュノードに送信され、セクション2に記載されたポリシーによって予測される。 0.85
Figure 4a shows the average data sizes per access, calculated daily by (𝑇𝑜𝑡𝑎𝑙 𝐷𝑎𝑡𝑎 𝐴𝑐𝑐𝑒𝑠𝑠 𝑆𝑖𝑧𝑒)/(𝑇𝑜𝑡𝑎𝑙 𝐷𝑎𝑡𝑎 𝐴𝑐𝑐𝑒𝑠𝑠 𝐶𝑜𝑢𝑛𝑡𝑠). 図4aは、(トータルデータアクセスサイズ)/(トータルデータアクセスカウント)で日々計算されるアクセス当たりの平均データサイズを示しています。 0.90
Figure 4b shows the weekly average data sizes per access. 図4bは、アクセスあたりの平均データサイズを示しています。 0.64
The upper parts of both daily and weekly plots show the average data size per access for each node, and the lower parts show the average data size per access of all nodes combined. 日毎および週単位のプロットの上部は各ノードのアクセス当たりの平均データサイズを示し、下部は全ノードのアクセス当たりの平均データサイズを示す。 0.74
The average data size per access of all cache nodes gradually decreases since Nov 2021. すべてのキャッシュノードへのアクセス当たりの平均データサイズは、2021年11月から徐々に減少している。 0.65
Overall, the average data size per access is increasing during the study period, consistent with the increases in the total access size while the data access counts remain about the same each month. 総じて、アクセス当たりの平均データサイズは調査期間中に増加しており、データアクセス数は毎月ほぼ同じである一方、アクセス総サイズの増加と一致している。 0.76
Figure 5a and 5b show the daily and weekly total shared data sizes among the cache node respectively. 図5aと5bは、それぞれキャッシュノード間の日毎と週毎の共有データサイズを示しています。 0.68
The total shared data size shows a big drop since mid Sept. 2021, with only a few occasional hikes. 共有データのサイズは2021年9月中旬から大幅に減少し、時には数回の上昇しかなかった。 0.61
After new cache nodes have been added to the regional cache, most of the cache hits have been sent to new cache nodes as the new nodes have recent data of more interest. 新しいキャッシュノードがリージョンキャッシュに追加された後、新しいノードが関心を持つ最近のデータを持っているため、キャッシュヒットのほとんどは新しいキャッシュノードに送信された。 0.82
Figure 6 shows the proportion of the daily total data size of the cache misses. 図6は、キャッシュミスの日総データサイズの割合を示しています。 0.81
The sudden drop in the daily proportion of cache hit sizes and the gradually increasing cache miss sizes are due キャッシュヒットサイズが1日当たりの突然の減少と、徐々に増加するキャッシュミスサイズが原因である。 0.72
2021-072021-082021-0 92021-102021-112021- 122022-012022-02Date 02000040000600008000 0CountJulAugSepOctNo vDecJan2022Date01000 00200000300000400000 Count2021-072021-082 021-092021-102021-11 2021-122022-012022-0 2Date025507510012515 0175200TBJulAugSepOc tNovDecJan2022Date01 00200300400500600700 TB050010001500200025 0030003500MB2021-072 021-082021-092021-10 2021-112021-122022-0 12022-022022-03Date0 5001000150020002500M Bxcache-11xcache-10x cache-08xcache-07xca che-06xcache-05xcach e-04xcache-03xcache- 02xcache-01xcache-00 esnet-xcache-01xrd-c ache-11xrd-cache-10x rd-cache-9xrd-cache- 8xrd-cache-7xrd-cach e-6xrd-cache-5xrd-ca che-4xrd-cache-3xrd- cache-2xrd-cache-105 001000150020002500MB JulAugSepOctNovDecJa n2022FebDate50010001 5002000MBxcache-11xc ache-10xcache-08xcac he-07xcache-06xcache -05xcache-04xcache-0 3xcache-02xcache-01x cache-00esnet-xcache -01xrd-cache-11xrd-c ache-10xrd-cache-9xr d-cache-8xrd-cache-7 xrd-cache-6xrd-cache -5xrd-cache-4xrd-cac he-3xrd-cache-2xrd-c ache-12021-072021-08 2021-092021-102021-1 12021-122022-012022- 02Date01020304050TBJ ulAugSepOctNovDecJan 2022Date020406080100 120140TB 2021-072021-082021-0 92021-102021-112021- 122022-012022-02Date 02000040000600008000 0CountJulAugSepOctNo vDecJan2022Date01000 00200000300000400000 Count2021-072021-082 021-092021-102021-11 2021-122022-012022-0 2Date025507510012515 0175200TBJulAugSepOc tNovDecJan2022Date01 00200300400500600700 TB050010001500200025 0030003500MB2021-072 021-082021-092021-10 2021-112021-122022-0 12022-022022-03Date0 5001000150020002500M Bxcache-11xcache-10x cache-08xcache-07xca che-06xcache-05xcach e-04xcache-03xcache- 02xcache-01xcache-00 esnet-xcache-01xrd-c ache-11xrd-cache-10x rd-cache-9xrd-cache- 8xrd-cache-7xrd-cach e-6xrd-cache-5xrd-ca che-4xrd-cache-3xrd- cache-2xrd-cache-105 001000150020002500MB JulAugSepOctNovDecJa n2022FebDate50010001 5002000MBxcache-11xc ache-10xcache-08xcac he-07xcache-06xcache -05xcache-04xcache-0 3xcache-02xcache-01x cache-00esnet-xcache -01xrd-cache-11xrd-c ache-10xrd-cache-9xr d-cache-8xrd-cache-7 xrd-cache-6xrd-cache -5xrd-cache-4xrd-cac he-3xrd-cache-2xrd-c ache-12021-072021-08 2021-092021-102021-1 12021-122022-012022- 02Date01020304050TBJ ulAugSepOctNovDecJan 2022Date020406080100 120140TB 0.00
英語(論文から抽出)日本語訳スコア
Figure 6: Daily proportion of cache miss sizes (orange area) and cache hit sizes (blue area) in the regional cache. 図6: キャッシュミスサイズ(レンジ領域)とキャッシュヒットサイズ(ブルー領域)の毎日の割合。
訳抜け防止モード: 図6:キャッシュミスサイズ(オレンジエリア)の日あたりの割合 および、地域キャッシュのキャッシュヒットサイズ(青い領域)。
0.76
The cache hit rate reduces after October 2021 because of a usage pattern change. 2021年10月以降、使用パターンの変化によりキャッシュヒット率が低下する。 0.72
(a) Daily total data reuse size (a)毎日の総データ再利用サイズ 0.89
(b) Daily total data reuse size with 7-day moving average b)7日間移動平均の日総データ再利用サイズ 0.82
Figure 8: Daily total data reuse size in the regional cache 図8: 地域キャッシュにおける1日の総データ再利用サイズ 0.82
j Figure 7: Daily network traffic demand reduction. j図7: 毎日のネットワークトラフィックの削減。 0.72
The average reduction rate is 2.35 before October 2021 and 1.11 afterward. 平均減少率は2021年10月までに2.35、その後1.11である。 0.53
to changes in the access trend that several users are constantly streaming data. 複数のユーザーが常にデータをストリーミングしているアクセストレンドの変化のために。 0.71
The network traffic demand reduction rates, calculated by the eqn. ネットワークトラフィックの低減率は、eqnで計算される。 0.67
(1), are shown in Figure 7 with the red line indicating the 7-day moving average of the network traffic demand reduction rate. 1) ネットワークトラフィックの減少率の7日間移動平均を示す赤い線を図7に示す。 0.59
The traffic demand reduction rate is the ratio of data volume users access and the volume transferred over the backbone network. トラフィック需要削減率(traffic demand reduction rate)は、データボリュームユーザアクセスとバックボーンネットワーク経由で転送されるボリュームの比率である。 0.80
It shows that the network traffic demand reduction rate experiences a sudden drop since Oct. 2021 when the user access trends changes to streaming many new data files. 利用者アクセス傾向が新たなデータファイルのストリーミングに変化した2021年10月以降、ネットワークのトラフィック需要減少率は急落している。 0.80
The average network traffic demand reduction rate is 1.30 during the study period, while the average rate from July 2021 to Sep. 2021 is 2.35 before the user access trends change. 調査期間中の平均ネットワークトラフィック削減率は1.30で、ユーザアクセス傾向が変わる前の2021年7月から2021年7月までの平均トラフィックは2.35である。 0.70
The average rate drops to 1.11 from Oct. 2021 to Jan. 2021, as user streaming data have a great negative impact on the statistics of the caching system. 2021年10月から2021年1月までの平均レートは1.11に低下する。
訳抜け防止モード: 平均金利は2021年10月から2021年1月までの1.11に低下する。 ユーザのストリーミングデータは、キャッシュシステムの統計に大きな悪影響を及ぼす。
0.68
network traffic demand reduction rate = ネットワークトラフィックの需要削減率 = 0.84
(total cache hit size + total cache miss size) (総キャッシュヒットサイズ+総キャッシュミスサイズ) 0.72
(total cache miss size) (全キャッシュミスサイズ) 0.66
(1) Figure 8a shows the daily total data reuse size for all nodes in the regional cache. (1) 図8aは、地域キャッシュ内のすべてのノードの日毎のデータ再利用サイズを示しています。 0.55
Data reuse means the re-access of the same data file without transferring within the same day (i.e. successive cache hits on the same data without a cache miss on that data during one day. データ再利用とは、同じ日に同じデータファイルを転送することなく、同じデータファイルに再アクセスすることを意味する(つまり、1日の間にキャッシュミスのない同じデータに連続的なキャッシュヒットが発生する)。 0.66
Data reuse indicates the network traffic savings on files that are accessed multiple times. データ再利用は、複数回アクセスされたファイルのネットワークトラフィックの節約を示す。 0.78
The total data reuse size is the total size of data reused in a single day. データ再利用サイズは、1日で再利用されるデータの総サイズである。 0.86
Figure 8b shows the daily total data reuse size of 7-day moving average in the regional cache. 図8bは、地域キャッシュにおける7日間の移動平均の毎日のデータ再利用サイズを示しています。 0.64
Prior to Oct. 2021 before the user behavior changes, the total data reuse size generally follows the access size. 利用者の行動が変わる2021年10月より前は、総データ再利用サイズは一般にアクセスサイズに従っている。 0.63
Since then, the total data reuse size is relatively stable with a few spikes in the middle. それ以来、データの総再利用サイズは比較的安定しており、中央に数回のスパイクがある。 0.62
(a) Daily data reuse rate (a)毎日のデータ再利用率 0.86
(b) Daily data reuse rate with 7-day moving average (b)7日間移動平均の日々のデータ再利用率 0.86
Figure 9: Daily data reuse rat. 図9: 毎日のデータ再利用ラット。 0.77
Despite the significant volume of data being streamed through this cache, there are still significant amount of reuse of files in cache. このキャッシュを通して大量のデータがストリーミングされているにもかかわらず、キャッシュ内のファイルの再利用は依然としてかなりの量である。 0.62
Figure 9a shows the daily data reuse rates for all nodes in the regional cache. 図9aは、地域キャッシュ内のすべてのノードのデータ再利用率を示しています。 0.69
The data reuse rate is the number of times that the files have been reused in a single day, calculated by (𝑇𝑜𝑡𝑎𝑙 𝐷𝑎𝑡𝑎 𝑅𝑒𝑢𝑠𝑒𝑑 𝐶𝑜𝑢𝑛𝑡)/(𝑁𝑢𝑚𝑏𝑒𝑟 𝑜 𝑓 𝑈 𝑛𝑖𝑞𝑢𝑒 𝑅𝑒𝑢𝑠𝑒𝑑 𝐹𝑖𝑙𝑒𝑠). データ再利用率 (data reuse rate) は、ファイルが1日で再利用された回数であり、(total data reused count)/(number o f u nique reused files)によって計算される。 0.84
Figure 9b shows the daily data reuse rate of the 7-day moving average for all nodes in the regional cache. 図9bは、地域キャッシュ内の全ノードの7日間移動平均の日々のデータ再利用率を示しています。 0.70
It’s measuring how well the caching system saves the traffic on files that are accessed multiple times. キャッシュシステムが、複数回アクセスされたファイルのトラフィックをどれだけ節約できるかを測定する。 0.81
The daily data reuse rate increases gradually from July 2021 to mid Nov. 2021, and decreases a bit since then. 日々のデータ再利用率は2021年7月から11月中旬にかけて徐々に増加し、それ以降はやや減少している。 0.61
The daily data reuse is not affected much by the behavior changes of several users’ streaming data. 毎日のデータ再利用は、複数のユーザのストリーミングデータの振る舞いの変化にはあまり影響しない。 0.79
2021-07-022021-07-17 2021-08-012021-08-16 2021-08-312021-09-15 2021-09-302021-10-15 2021-10-302021-11-14 2021-11-292021-12-14 2021-12-292022-01-13 2022-01-28Date0.00.2 0.40.60.81.0Proporti on110100100010000100 000Ratio2021-072021- 082021-092021-102021 -112021-122022-01202 2-02Date110Ratioxcac he-11xcache-10xcache -08xcache-07xcache-0 6xcache-05xcache-04x cache-03xcache-02xca che-01xcache-00esnet -xcache-01xrd-cache- 11xrd-cache-10xrd-ca che-9xrd-cache-8xrd- cache-7xrd-cache-6xr d-cache-5xrd-cache-4 xrd-cache-3xrd-cache -2xrd-cache-12021-07 2021-082021-092021-1 02021-112021-122022- 012022-02Date0250050 00750010000125001500 017500GB2021-072021- 082021-092021-102021 -112021-122022-01202 2-02Date020004000600 080001000012000GB202 1-072021-082021-0920 21-102021-112021-122 022-012022-02Date101 102Rate as Count2021-072021-082 021-092021-102021-11 2021-122022-012022-0 2Date101102Rate as Count 2021-07-022021-07-17 2021-08-012021-08-16 2021-08-312021-09-15 2021-09-302021-10-15 2021-10-302021-11-14 2021-11-292021-12-14 2021-12-292022-01-13 2022-01-28Date0.00.2 0.40.60.81.0Proporti on110100100010000100 000Ratio2021-072021- 082021-092021-102021 -112021-122022-01202 2-02Date110Ratioxcac he-11xcache-10xcache -08xcache-07xcache-0 6xcache-05xcache-04x cache-03xcache-02xca che-01xcache-00esnet -xcache-01xrd-cache- 11xrd-cache-10xrd-ca che-9xrd-cache-8xrd- cache-7xrd-cache-6xr d-cache-5xrd-cache-4 xrd-cache-3xrd-cache -2xrd-cache-12021-07 2021-082021-092021-1 02021-112021-122022- 012022-02Date0250050 00750010000125001500 017500GB2021-072021- 082021-092021-102021 -112021-122022-01202 2-02Date020004000600 080001000012000GB202 1-072021-082021-0920 21-102021-112021-122 022-012022-02Date101 102Rate as Count2021-072021-082 021-092021-102021-11 2021-122022-012022-0 2Date101102Rate as Count 0.01
英語(論文から抽出)日本語訳スコア
4 MODELING AND PREDICTING CACHE 4 キャッシュのモデリングと予測 0.70
UTILIZATION To further understand the trends of cache utilization and explore the potential effectiveness of a more general caching mechanism in addition to the dedicated caching system for the specific user community, we next attempt to build machine learning models to investigate the predictability of common cache utilization trends. 利用 キャッシュ利用のトレンドをさらに理解し、特定のユーザコミュニティ向けの専用キャッシュシステムに加えて、より一般的なキャッシュメカニズムの可能性を探るため、次に機械学習モデルを構築し、一般的なキャッシュ利用傾向の予測可能性について検討する。 0.60
We model these cache utilization measures as a time series and plan to employ a well-established recurrent neural network (RNN) [16]. 我々は,これらのキャッシュ利用尺度を時系列としてモデル化し,確立されたリカレントニューラルネットワーク(rnn)[16]を採用する計画である。 0.72
More specifically, we use a version of RNN known as Long-Short Term Memory (LSTM) in this work [10, 16]. 具体的には、この作業でLong-Short Term Memory (LSTM)として知られるRNNのバージョンを使用します [10, 16]。 0.82
4.1 LSTM on the Daily Data We anticipate this modeling effort to be used in an advanced softwaredefined networking environment for possible resource allocation of a series of in-network caches. 4.1 LSTM on the Daily Data 我々は、一連のネットワーク内キャッシュのリソース割り当てを可能にする、高度なソフトウェア定義ネットワーク環境で使用されることを期待する。 0.72
In this context, one useful time frame for considering possible resource allocation might be a few hours or a day. この文脈では、リソース割り当ての可能性を考えるための有用な時間枠の1つは、数時間か1日である。 0.59
With this in mind, this work aggregates the cache utilization statistics into daily records. これを考慮して、この作業はキャッシュ利用統計データを日々の記録に集約する。 0.74
To construct this daily time series, we need to generate meaningful daily summaries along with other useful features that might support the prediction task. この日次時系列を構築するには、予測タスクをサポートする他の有用な機能とともに、意味のある日次要約を生成する必要がある。
訳抜け防止モード: この日々の時系列を構築するには 予測タスクをサポートする 有用な機能とともに 毎日意味のある要約を生成する必要がある
0.74
The daily summary of cache statistics includes the following features: キャッシュ統計の日次要約には以下の機能が含まれている。 0.68
(a) access counts, (b) access sizes, (a)アクセス数 (b)アクセスサイズ 0.59
(c) cache hit counts, (c)キャッシュヒット数。 0.68
(d) cache hit sizes, (d)キャッシュヒットサイズ。 0.69
(e) cache miss counts, (e)キャッシュミスカウント。 0.56
(f) cache miss sizes, (f)キャッシュミスサイズ。 0.67
(g) data reuse counts, and (g)データの再利用回数、及び 0.84
(h) data reuse sizes. (h)データ再利用サイズ。 0.85
Figure 10 shows the distribution of these daily summaries. 図10は、これらの日々の要約の分布を示しています。 0.58
Since these features have widely varying values, we plan to normalize these values before giving them to LSTM models. これらの特徴は様々な値を持つため、LSTMモデルに渡す前にこれらの値を正規化する計画である。 0.69
As there are many extreme values in the data, we have selected to use the z-score normalization [15] instead of the more commonly used min-max normalization. データには多くの極端な値があるので、より一般的に使われるmin-max正規化の代わりにzスコア正規化[15]を使うように選択した。 0.68
Due to the limited number of data points available, We allocate the data of the first 80% of the study period to be the training data, and the data of the last 20% of the study period to be the test data. 利用可能なデータポイントが限られているため、学習期間の最初の80%のデータをトレーニングデータ、最後の20%のデータをテストデータに割り当てる。
訳抜け防止モード: 利用可能なデータポイントの数が限られているため、学習期間の最初の80%のデータをトレーニングデータとして割り当てる。 調査期間の最後の20%のデータは テストデータです
0.64
The model selection would be based on how the model performs on the test data. モデルの選択は、テストデータでモデルがどのように振る舞うかに基づいて行われる。 0.76
The train dataset covers from July 1, 2021 to Dec. 16, 2021, and the test dataset covers from Dec. 19, 2021 to Jan. 29, 2022. 2021年7月1日から2021年12月16日まで、テストデータセットは2021年12月19日から2022年1月29日まで。 0.66
We prepared two different models, one with the above mentioned eight features and the second one with one additional feature, dayof-the-week. 上記の8つの機能を備えたモデルと、1つの追加機能を備えた2つのモデルを用意しました。 0.63
Because most workplaces follow the workweek schedule, we anticipate seeing a weekly trend and the day-of-the-week feature might improve the prediction accuracy. ほとんどの職場は作業週間のスケジュールに従っているので、毎週の傾向と日々の機能によって予測精度が向上すると予想している。 0.64
The day-of-theweek information is processed by one-hot encoding. 日報情報はワンホット符号化によって処理される。 0.52
The input of the daily LSTM model is a vector of size 8 or 14, depending on whether day-of-the-week information is added. 日次LSTMモデルの入力は、日次情報を追加するかどうかに応じて、サイズ8または14のベクトルである。 0.74
The first 8 are the normalized features of 𝑁𝑡ℎ day, and the features include data access count, data access size, cache hit count, cache hit size, cache miss count, cache miss size, data reuse count, data reuse sizes. 最初の8つはNth Dayの正規化された機能で、データアクセス数、データアクセスサイズ、キャッシュヒット数、キャッシュヒット数、キャッシュミス数、キャッシュミス数、データ再利用数、データ再利用サイズなどが含まれる。 0.71
The last 6 are used for one-hot encoding representation of the day-of-the-week information, indicating whether of 𝑁𝑡ℎ day is Monday to Saturday. 最後の6つは、週1日の情報を1時間でエンコードするために使用され、N日が月曜日か土曜日かを示す。
訳抜け防止モード: 最後の6つは、1日 - 週情報のホットエンコーディング表現に使用される。 N日が月曜日か土曜日かを示す。
0.71
If 𝑁𝑡ℎ day is Sunday, then it’s represented as not Monday to Saturday. もしN日が日曜日なら、月曜日から土曜日ではないと表現される。 0.79
The output of the LSTM model is a vector of size 8, the predicted normalized features of (𝑁 + 1)𝑡ℎ day, and the features include data access count, data access size, cache hit count, cache hit size, cache LSTMモデルの出力は、(N + 1)日の予測正規化された特徴であるサイズ8のベクトルであり、データアクセス数、データアクセスサイズ、キャッシュヒット数、キャッシュヒットサイズ、キャッシュを含む。 0.73
Table 2: Hyper-parameters for Daily LSTM model 表2:日次LSTMモデルのためのハイパーパラメータ 0.77
parameter values # of first layer LSTM unit # of second layer LSTM unit first layer activation function second layer activation function パラメータ 価値観 第1層LSTMユニット# LSTMユニット第1層活性化関数第2層活性化関数 0.69
dropout rate # of epochs epochsのドロップアウト率# 0.71
16, 32, 64, 128, 256 0, 16, 32, 64, 128, 256 16, 32, 64, 128, 256 0, 16, 32, 64, 128, 256 0.42
tanh, relu tanh, relu tanh, relu tanh, relu 0.43
0, 0.04, 0.1, 0.15 0, 0.04, 0.1, 0.15 0.34
5, 10, 15, 25, 50, 75,100 5, 10, 15, 25, 50, 75,100 0.50
Table 3: hyper-parameter of the daily LSTM model # of epochs 表3:1日あたりのlstmモデル#のハイパーパラメーター 0.64
activation function # of LSTM unit 活性化機能 LSTM ユニットの # 0.79
dropout rate ドロップアウトレート 0.57
values 128 tanh 価値観 128 タン 0.52
0.04 50 Table 4: RMSE of Daily LSTM model with and without using weekday information 0.04 50 表4:平日情報を用いた日次LSTMモデルのRMSE 0.47
Access Count Access Size アクセスカウントアクセスサイズ 0.75
Cache Hit Count Cache Hit Size キャッシュがキャッシュを数えるサイズに到達 0.70
Cache Miss Count Cache Miss Size Data Reuse Count Data Reuse Size キャッシュミス キャッシュミス キャッシュミス データ再利用サイズ 0.49
Without day-of-the-week Test RMSE Train RMSE 4,944.34 16,621.57 3,158.99 2,144.92 2,954.13 17,324.68 3,066.91 1,482.21 平日試験RMSE列車RMSE 4,944.34 16,621.57 3,158.99 2,144.92 2,954.13 17,324.68 3,066.91 1,482.21 0.32
3,861.14 2,480.61 2,459.72 1,425.66 2,261.62 1,265.84 2,224.82 1,135.80 3,861.14 2,480.61 2,459.72 1,425.66 2,261.62 1,265.84 2,224.82 1,135.80 0.13
3,492.61 2,612.90 2,179.03 1,375.42 2,302.29 1,298.15 2,063.65 1,099.14 3,492.61 2,612.90 2,179.03 1,375.42 2,302.29 1,298.15 2,063.65 1,099.14 0.13
With day-of-the-week Train RMSE 週に1回 列車RMSE 0.39
Test RMSE 4,220.19 16,571.21 2,917.99 2,154.87 2,970.10 16,426.95 2,646.69 1,466.38 RMSE 4,220.19 16,571.21 2,917.99 2,154.87 2,970.10 16,426.95 2,646.69 1,466.38 0.15
Acc. 0.93 0.85 0.95 0.85 0.91 0.90 0.93 0.73 acc。 0.93 0.85 0.95 0.85 0.91 0.90 0.93 0.73 0.26
miss count, cache miss size, data reuse count, and data reuse sizes. ミスカウント、キャッシュミスサイズ、データ再利用カウント、データ再利用サイズ。 0.63
The loss function is the root mean squared error (RMSE). 損失関数は根平均二乗誤差(RMSE)である。 0.74
All values in output vectors are given equal weights in calculating the loss. 出力ベクトルの全ての値は損失を計算する際に等しい重みを与える。 0.79
Table 2 shows the 3360 combinations of hyper-parameters explored for tuning the daily LSTM model. 表2は、日々のLSTMモデルをチューニングするために探索されたハイパーパラメータの3360の組み合わせを示している。 0.57
As we have a limited number of data points, the explored models have a maximum of 2 LSTM layers, and each LSTM layer has a maximum of 256 LSTM units. データポイントが限られているため、探索されたモデルは最大2つのLSTM層を持ち、各LSTM層は最大256個のLSTMユニットを持つ。 0.84
The structure of the daily LSTM is shown in Figure 11a. 日次LSTMの構造は図11aに示す。 0.68
When the number of the second layer LSTM unit is 0, the second LSTM layer does not exist; in this case, the daily LSTM is shown in Figure 11b. 第2層LSTMユニットの数が0の場合、第2層LSTMレイヤは存在せず、この場合、日次LSTMを図11bに示す。 0.78
The hyper-parameter of the final daily LSTM model is chosen by the RMSE between the predicted test set values and the true test set values. 最終日のLSTMモデルのハイパーパラメータは、予測されたテストセット値と真のテストセット値の間のRMSEによって選択される。 0.78
The final model with the lowest RMSE for the test set is a 1-layer LSTM model shown in Figure 11b; its hyper-parameters are shown in table 3. テストセットで最低のRMSEを持つ最終モデルは図11bに示す1層LSTMモデルであり、そのハイパーパラメータは表3に示される。 0.85
Figure 12 shows how the daily LSTM model fits the daily access data. 図12は、日々のLSTMモデルが日々のアクセスデータにどのように適合するかを示しています。 0.56
The model performs well when there are no extreme values, but as shown in Figure 12b, 12d, 12f, and 12h, the model does not fit and predict extreme values well. 極端な値がない場合、モデルはうまく機能するが、図12b、12d、12f、12hに示すように、モデルに適合せず、極端な値を予測する。 0.77
The gray shaded area is the predicted variance, defined as 2 standard deviations of the predicted values. グレーシェード領域は予測分散であり、予測値の2つの標準偏差として定義される。 0.72
If the actual value is within the predicted variance of the predicted value, we consider it as accurate. 実際の値が予測値のばらつきの範囲内であれば、その値が正確であると考える。 0.83
The overall accuracy is 0.884, and the accuracies for daily count data are all over 0.9. 全体的な精度は0.884で、日数データの精度は0.9以上である。 0.79
Table 4 shows the RMSE of the Daily LSTM model on each daily data, along with the accuracy of the prediction. 表4は、日毎のデータに対する日毎のlstmモデルのrmseと、予測の精度を示している。 0.73
Note that the RMSE shown in this table is measured on the scale of the original values, not the normalized values. この表で示されるrmseは正規化値ではなく、元の値のスケールで測定される。 0.67
The overall accuracy is 0.884. 全体の精度は0.884。 0.78
The difference between the train RMSE and test RMSE on the size features is due to the model’s inability to fit on extreme values. 列車のRMSEと試験のRMSEの違いは、モデルが極端な値に収まらないためである。 0.41
When the day-of-the-week feature is added to the model for training, the model performance is improved on the daily counts, while the performance improvement in predicting daily sizes is minimal. トレーニング用モデルに日々の機能を追加すると、日々のカウントでモデル性能が向上し、日々のサイズの予測におけるパフォーマンス改善が最小限となる。 0.79
The extreme values in the daily sizes make it hard to fit the daily sizes well; thus, adding day-of-the-week information can only improve the performance on the daily counts. 日々のサイズの極端な値は、日々のサイズの適合を難しくするので、日々の情報を追加することで、日々のカウントのパフォーマンスを改善することができる。 0.60
This suggests that there might be a weekly seasonality in the daily data. これは、毎日のデータに毎週の季節性があることを示唆している。 0.66
英語(論文から抽出)日本語訳スコア
(a) Access counts (b) Access sizes (a)アクセス数 (b)アクセスサイズ 0.77
(c) Cache hit counts (c)キャッシュヒット数 0.70
(d) Cache hit sizes (d)キャッシュヒットサイズ 0.76
(e) Cache miss counts (e)キャッシュミスカウント 0.63
(f) Cache miss sizes (f)キャッシュミスサイズ 0.73
(g) Data reuse counts (g)データ再利用数 0.85
(h) Data reuse sizes (h)データ再利用サイズ 0.91
Figure 10: Distribution of daily features 図10:毎日の特徴の分布 0.88
Table 6: Explored Hyper-parameters for MA LSTM model 表6:ma lstmモデルのハイパーパラメータの検討 0.79
(a) (b) Figure 11: (a) (b) 図11 0.47
(a) 2-layer LSTM (b) 1-layer LSTM (a)2層LSTM (b)1層LSTM 0.46
Table 5: hyper-parameter of the MA LSTM model # of epochs 表 5: ma lstm model # of epochsのハイパーパラメータ 0.69
activation function # of LSTM unit 活性化機能 LSTM ユニットの # 0.79
dropout rate ドロップアウトレート 0.57
values 128 tanh 価値観 128 タン 0.52
0.00 100 4.2 LSTM on the Daily Data with 7-Day Moving 0.00 100 4.2 LSTM on the Daily Data with 7-day moving 0.38
Average (MA LSTM Model) 平均値(MA LSTMモデル) 0.89
In the previous study, we speculated that LSTM models perform poorly on the size feature because of the extreme values. 前回の研究では, LSTMモデルでは, 極端な値のため, サイズ特性が不十分であった。 0.82
To verify this claim, we have smoothed the daily summaries with a 7-day moving average. この主張を検証するために、我々は7日間の移動平均で毎日の要約を円滑にした。 0.60
The input and output of the MA LSTM model are a vector of size 8, the normalized features of 𝑁𝑡ℎ day and (𝑁 + 1)𝑡ℎ day respectively, and the features include data access count, data access size, cache hit count, cache hit size, cache miss count, cache miss size, data reuse count, and data reuse sizes. MA LSTMモデルの入力と出力は、サイズ8のベクトル、N日と(N + 1)日の正規化された特徴、データアクセス数、データアクセスサイズ、キャッシュヒット数、キャッシュヒット数、キャッシュミス数、キャッシュミス数、データ再利用数、データ再利用サイズである。 0.62
The loss function is the root mean squared error (RMSE). 損失関数は根平均二乗誤差(RMSE)である。 0.74
All values in the output vectors are given equal weights in calculating the loss. 出力ベクトルの全ての値は損失を計算する際に等しい重みを与える。 0.85
The same 3360 combinations of hyper-parameters shown in Table 2 are explored in the MA LSTM model. 表2に示すような3360のハイパーパラメータの組み合わせをMA LSTMモデルで探索する。 0.72
The model selection process is the same as the selection process for the daily LSTM model. モデル選択プロセスは、日次LSTMモデルの選択プロセスと同じである。 0.72
The model with the lowest test RMSE is the 1-layer LSTM model shown in Figure 11b; its hyper-parameters are shown in Table 5. RMSEが最も低いモデルは図11bの1層LSTMモデルであり、そのハイパーパラメータは表5に示されている。 0.84
The hyper-parameters and constructions of the daily LSTM model and the MA LSTM model are very similar as they only differ in the dropout rate and the number of training epochs. 毎日のLSTMモデルとMA LSTMモデルのハイパーパラメータと構成は、ドロップアウト率とトレーニングエポックの数にのみ異なるため、非常によく似ている。 0.70
This is due to the high similarity between the daily data and the daily data with 7-day moving average, and the limited number of available data points. これは、日次データと7日間の移動平均を持つ日次データと、利用可能なデータポイントの限られた数との類似性が高いためである。 0.74
Access Count Access Size アクセスカウントアクセスサイズ 0.75
Cache Hit Count Cache Hit Size キャッシュがキャッシュを数えるサイズに到達 0.70
Cache Miss Count Cache Miss Size Data Reuse Count Data Reuse Size キャッシュミス キャッシュミス キャッシュミス データ再利用サイズ 0.49
Train RMSE 1,122.15 744.56 829.23 223.00 1,127.30 612.94 808.80 208.27 列車RMSE 1,122.15 744.56 829.23 223.00 1,127.30 612.94 808.80 208.27 0.26
Test RMSE 2,169.72 7,729.04 2025.21 1,573.72 781.83 9616.83 1,228.71 812.33 RMSE 2,169.72 7,729.04 2025.21 1,573.72 781.83 9616.83 1,228.71 812.33 0.18
Accuracy Test RMSE reduction 正確さ 試験RMSE還元 0.69
compare with daily LSTM 毎日のLSTMと比較して 0.65
0.93 0.83 0.88 0.91 0.86 0.77 0.87 0.92 0.93 0.83 0.88 0.91 0.86 0.77 0.87 0.92 0.21
48.6% 53.4% 30.6% 27.1% 73.0% 58.5% 53.6% 44.6% 48.6% 53.4% 30.6% 27.1% 73.0% 58.5% 53.6% 44.6% 0.30
Figure 13 shows how the MA LSTM model fits the 7-day moving average on daily data. 図13は、MA LSTMモデルが日々のデータに対して7日間の移動平均にどのように適合するかを示しています。
訳抜け防止モード: 図13は MA LSTMモデルは、毎日のデータに対して7日間の移動平均に適合する。
0.76
The model still deviates a lot on the extreme values in Figure 13f, but the model works well in general. モデルはまだ図13fの極端な値について多くを逸脱しているが、一般的にはうまく機能している。 0.70
The gray shaded area indicates the predicted variance, which is much smaller compared to the daily LSTM model. グレーシェード領域は, 日次LSTMモデルよりもはるかに小さい, 予測されたばらつきを示す。 0.77
Table 6 shows the RMSE of the MA LSTM model, along with the prediction accuracy. 表6は、予測精度とともに、MA LSTMモデルのRMSEを示す。 0.72
Overall accuracy is 0.873. 全体の精度は0.873である。 0.55
Although accuracy is less than 0.01 lower than the daily LSTM model, the predicted variance of the MA LSTM model is much smaller, so the prediction of the MA LSTM model is closer to the actual value. 日次LSTMモデルよりも精度は0.01以下であるが,MA LSTMモデルの予測分散ははるかに小さく,MA LSTMモデルの予測は実際の値に近い。 0.74
Compared to the RMSE of the daily LSTM model, the MA LSTM model performs much better overall in terms of the test set RMSE; 日次LSTMモデルのRMSEと比較して、MA LSTMモデルは、テストセットRMSEの点で、全体的なパフォーマンスがはるかに向上する。 0.75
This shows that the LSTM model fits the daily data with 7-day moving average better than the daily data, which confirms that the extreme values severely affect the LSTM performance. このことは,lstmモデルが7日間移動平均値の日平均値に適合することを示すとともに,極端な値がlstmの性能に大きく影響することを確認した。
訳抜け防止モード: これは、LSTMモデルが日々のデータと7日間の移動平均に適合していることを示している。 これは、極端な値がLSTMのパフォーマンスに重大な影響を与えることを確認します。
0.62
4.3 Seasonality Day-of-the-week information improves the performance of the daily the LSTM model, which suggests some weekly seasonality in the daily time series data. 4.3 季節の日報は,日毎のLSTMモデルの性能を改善し,日毎の時系列データに週毎の季節性を示す。 0.79
We investigate the seasonality using periodograms [17]. 周期図[17]を用いて季節性を調べる。 0.64
Figure 14 shows the periodogram of daily data. 図14は、日データの周期図を示しています。 0.63
All columns show relatively strong, if not strongest, seasonal effects of 7 day period, confirming that there exists a weekly seasonal effect. 全ての円柱は7日間の季節効果が比較的強いが、最も強いとはいえないが、毎週の季節効果があることを確認している。
訳抜け防止モード: 全ての柱は7日間の季節効果が比較的強いが、最強ではない。 週1回 季節効果があることを確認。
0.76
5 CONCLUSIONS In this paper, we studied the access trends of the Southern California Petabyte Scale Cache operated by teams of high-energy 5 計算 本稿では,高エネルギーチームによる南カリフォルニアペタバイトスケールキャッシュのアクセス動向について検討した。 0.67

英語(論文から抽出)日本語訳スコア
(a) Access counts (b) Access sizes (a)アクセス数 (b)アクセスサイズ 0.77
(c) Cache hit counts (c)キャッシュヒット数 0.70
(d) Cache hit sizes (d)キャッシュヒットサイズ 0.76
(e) Cache miss counts (e)キャッシュミスカウント 0.63
(f) Cache miss sizes (f)キャッシュミスサイズ 0.73
(g) Data reuse counts (g)データ再利用数 0.85
(h) Data reuse sizes (h)データ再利用サイズ 0.91
Figure 12: Daily LSTM model Train and Test result vs True Value 図12:1日LSTMモデルトレインとテスト結果対真の価値 0.82
(a) Access counts (b) Access sizes (a)アクセス数 (b)アクセスサイズ 0.77
(c) Cache hit counts (c)キャッシュヒット数 0.70
(d) Cache hit sizes (d)キャッシュヒットサイズ 0.76
(e) Cache miss counts (e)キャッシュミスカウント 0.63
(f) Cache miss sizes (f)キャッシュミスサイズ 0.73
(g) Data reuse counts (g)データ再利用数 0.85
(h) Data reuse sizes (h)データ再利用サイズ 0.91
Figure 13: MA LSTM model Train and Test result vs True Value 図13:MA LSTMモデルトレインとテスト結果対真の価値 0.80
2021-072021-082021-0 92021-102021-112021- 122022-012022-021000 00100002000030000400 005000060000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0202000040000600 0080000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 15000200002500030000 True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0225000250050007 500100001250015000Tr ue valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0210000010000200 0030000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0202000040000600 0080000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 150002000025000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0202000400060008 0001000012000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0210000010000200 003000040000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 15000200002500030000 35000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 150002000025000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0220000200040006 00080001000012000140 00True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 1500020000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0205000100001500 0200002500030000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 1500020000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0202000400060008 000True valueTraining set predictionTest set prediction 2021-072021-082021-0 92021-102021-112021- 122022-012022-021000 00100002000030000400 005000060000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0202000040000600 0080000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 15000200002500030000 True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0225000250050007 500100001250015000Tr ue valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0210000010000200 0030000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0202000040000600 0080000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 150002000025000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0202000400060008 0001000012000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0210000010000200 003000040000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 15000200002500030000 35000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 150002000025000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0220000200040006 00080001000012000140 00True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 1500020000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0205000100001500 0200002500030000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0250000500010000 1500020000True valueTraining set predictionTest set prediction2021-07202 1-082021-092021-1020 21-112021-122022-012 022-0202000400060008 000True valueTraining set predictionTest set prediction 0.11
英語(論文から抽出)日本語訳スコア
(a) Access counts (b) Access sizes (a)アクセス数 (b)アクセスサイズ 0.77
(c) Cache hit counts (c)キャッシュヒット数 0.70
(d) Cache hit sizes (d)キャッシュヒットサイズ 0.76
(e) Cache miss counts (e)キャッシュミスカウント 0.63
(f) Cache miss sizes (f)キャッシュミスサイズ 0.73
(g) Data reuse counts (g)データ再利用数 0.85
(h) Data reuse sizes (h)データ再利用サイズ 0.91
Figure 14: Periodogram of daily data. 図14: 日常データの周期図。 0.83
All eight features show the same peaks at 31 days and 62 days. 8つの特徴はいずれも31日62日で同じピークを示す。 0.77
physicists in California. カリフォルニアの物理学者。 0.83
Our analysis shows that the SoCal Repo was able to reduce the network traffic by 57% for a large portion of the period of the study. 分析の結果,調査期間の大部分において,SoCal Repoはネットワークトラフィックを57%削減することができた。 0.65
However, some periods of study show access patterns of streaming data which is an inefficient way of using the caching system, and impacts the performance of the backbone network. しかし,キャッシュシステムの非効率な利用方法であるストリーミングデータのアクセスパターンが,バックボーンネットワークの性能に影響を及ぼすケースも報告されている。 0.79
Through this study, we developed a number of machine learning models to further explore the predictability of the cache utilization statistics. 本研究では,キャッシュ利用統計の予測可能性を探るために,複数の機械学習モデルを開発した。 0.87
Because the regional storage cache could predictably reduce the network utilization, we anticipate that a more general caching mechanism could benefit many more scientific communities beyond the specific physics community studied. 地域記憶キャッシュはネットワーク利用を予測可能な形で削減できるため、より一般的なキャッシュ機構が特定の物理コミュニティ以上の科学コミュニティに利益をもたらすと予測している。 0.72
The study also reveals a number of unexpected characteristics worth further investigation. この研究はまた、さらなる調査に値する予期せぬ特徴をいくつか明らかにしている。 0.53
For example, the cache hit rates decrease significantly during the most recent months of the study, and a need for a larger dataset to train LSTM models. 例えば、研究の最近の数ヶ月間でキャッシュヒット率は大幅に減少し、LSTMモデルをトレーニングするためのより大きなデータセットが必要になった。 0.77
ACKNOWLEDGMENTS This work was supported by the Office of Advanced Scientific Computing Research, Office of Science, of the U.S. Department of Energy under Contract No. ACKNOWLEDGMENTS この研究は、契約第1号の下でアメリカ合衆国エネルギー省の先端科学計算研究局(Office of Advanced Scientific Computing Research)によって支援された。 0.63
DE-AC02-05CH11231, and also used resources of the National Energy Research Scientific Computing Center (NERSC). DE-AC02-05CH11231は、NERSC(National Energy Research Scientific Computing Center)のリソースも使用した。 0.70
This work was also supported by the National Science Foundation through the grants OAC-2030508, OAC-1836650, MPS-1148698, PHY-1120138 and OAC-1541349. この研究は国立科学財団によって、OAC-2030508、OAC-1836650、MPS-1148698、PHY-1120138、OAC-1541349の助成金によって支援された。 0.52
REFERENCES [1] L Bauerdick, D Benjamin, K Bloom, B Bockelman, D Bradley, S Dasu, M Ernst, R Gardner, A Hanushevsky, H Ito, D Lesny, P McGuigan, S McKee, O Rind, H Severini, I Sfiligoi, M Tadel, I Vukotic, S Williams, F Würthwein, A Yagil, and W Yang. ReferenceS [1] L Bauerdick, D Benjamin, K Bloom, B Bockelman, D Bradley, S Dasu, M Ernst, R Gardner, A Hanushevsky, H Ito, D Lesny, P McGuigan, S McKee, O Rind, H Severini, I Sfiligoi, M Tadel, I Vukotic, S Williams, F Würthwein, A Yagil, W Yang
訳抜け防止モード: 参考文献 [1 ] l bauerdick, d benjamin, k bloom b・ボッケルマン d・ブラッドリー s・ダス m・エルンスト r・ガードナー a hanushevsky, h ito, d lesny, p mcguigan, s mckee, オ・リンド、h・セヴェリーニ、i sfiligoi、m tadel。 i vukotic, s williams, f würthwein, a yagil。 そしてwyangだ。
0.62
2012. Using Xrootd to Federate Regional Storage. 2012. XrootdをFederate Regional Storageに使用。 0.62
Journal of Physics: Conference Series 396, 4 (2012), 042009. journal of physics: conference series 396, 4 (2012), 042009。 0.36
[2] L. Bauerdick, K. Bloom, B. Bockelman, D. Bradley, S. Dasu, J. Dost, I. Sfiligoi, A. Tadel, M. Tadel, F. Wuerthwein, A. Yafil, and the CMS collaboration. [2] L. Bauerdick, K. Bloom, B. Bockelman, D. Bradley, S. Dasu, J. Dost, I. Sfiligoi, A. Tadel, M. Tadel, F. Wuerthwein, A. Yafil, CMSコラボレーション。
訳抜け防止モード: [2 ]L. Bauerdick, K. Bloom, B. Bockelman D. Bradley, S. Dasu, J. Dost, I. Sfiligoi A. Tadel, M. Tadel, F. Wuerthwein, A. Yafil そして、CMSコラボレーション。
0.96
2014. XRootd, disk-based, caching proxy for optimization of data access, data placement and data replication. 2014. データアクセス、データ配置、データレプリケーションの最適化のためのディスクベースのキャッシュプロキシ。 0.58
Journal of Physics: Conference Series 513, 4 (2014). journal of physics: conference series 513, 4 (2014)を参照。 0.43
[3] Ben Brown, Eli Dart, Gulshan Rai, Lauren Rotman, and Jason Zurawski. Ben Brown氏、Eli Dart氏、Gulshan Rai氏、Lauren Rotman氏、Jason Zurawski氏。 0.67
2020. Nuclear Physics Network Requirements Review Report. 2020. 核物理ネットワークの要件報告。 0.53
University of California, Publication Management System Report LBNL-2001281. カリフォルニア大学出版管理システム報告 LBNL-2001281 0.65
Energy Sciences Network. エネルギー科学ネットワーク。 0.75
https://www.es.net/a ssets/Uploads/202005 05-NP.pdf https://www.es.net/a ssets/Uploads/202005 05-NP.pdf 0.12
[4] E. Copps, H. Zhang, A. Sim, K. Wu, I. Monga, C. Guok, F. Wurthwein, D. Davila, and E. Fajardo. E. Copps, H. Zhang, A. Sim, K. Wu, I. Monga, C. Guok, F. Wurthwein, D. Davila, E. Fajardo. 0.47
2021. Analyzing scientific data sharing patterns with in-network data caching. 2021. ネットワーク内データキャッシュによる科学データ共有パターンの解析。 0.60
In 4th ACM International Workshop on System and Network Telemetry and Analysis (SNTA 2021). 第4回ACM International Workshop on System and Network Telemetry and Analysis (SNTA 2021) に参加して 0.86
ACM, ACM. [10] Klaus Greff, Rupesh K Srivastava, Jan Koutník, Bas R Steunebrink, and Jürgen Schmidhuber. ACM、ACM。 Klaus Greff氏、Rupesh K Srivastava氏、Jan Koutník氏、Bas R Steunebrink氏、Jürgen Schmidhuber氏。 0.56
2016. LSTM: A search space odyssey. 2016. LSTM: 検索スペースのオデッセイ。 0.57
IEEE transactions on neural networks and learning systems 28, 10 (2016), 2222–2232. IEEEはニューラルネットワークと学習システムの28, 10 (2016), 2222–2232を処理している。 0.74
[11] Anshuman Kalla and Sudhir Kumar Sharma. [11]Ans Human KallaとSudhir Kumar Sharma。 0.42
2016. A constructive review of in-network caching: A core functionality of ICN. 2016. ネットワーク内キャッシュの構成的レビュー:ICNの中核機能。 0.53
In 2016 International Conference on Computing, Communication and Automation (ICCCA). 2016年、ICCCA(International Conference on Computing, Communication and Automation)に参加。 0.89
567–574. [12] Yanhua Li, Haiyong Xie, Yonggang Wen, and Zhi-Li Zhang. 567–574. [12]Yanhua Li、Hayyong Xie、Yongang Wen、Zhi-Li Zhang。 0.53
2013. Coordinating In-Network Caching in Content-Centric Networks: Model and Analysis. 2013. コンテンツ中心ネットワークにおけるネットワーク内キャッシュのコーディネート:モデルと分析 0.57
In 2013 IEEE 33rd International Conference on Distributed Computing Systems. 2013年、IEEE 33rd International Conference on Distributed Computing Systems に参加。 0.77
62–72. https://doi.org/10.1 109/ICDCS.2013.71 62–72. https://doi.org/10.1 109/ICDCS.2013.71 0.24
[13] Ruth Pordes, Don Petravick, Bill Kramer, Doug Olson, Miron Livny, Alain Roy, Paul Avery, Kent Blackburn, Torre Wenaus, Frank Würthwein, Ian Foster, Rob Gardner, Mike Wilde, Alan Blatecky, John McGee, and Rob Quick. Ruth Pordes氏、Don Petravick氏、Bill Kramer氏、Doug Olson氏、Miron Livny氏、Alain Roy氏、Paul Avery氏、Kent Blackburn氏、Torre Wenaus氏、Frank Würthwein氏、Ian Foster氏、Rob Gardner氏、Mike Wilde氏、Alan Blatecky氏、John McGee氏、Rob Quick氏。
訳抜け防止モード: [13 ]ルース・ポルデス、ドン・ペトラビック、ビル・クラマー Doug Olson, Miron Livny, Alain Roy, Paul Avery Kent Blackburn, Torre Wenaus, Frank Würthwein, Ian Foster Rob Gardner, Mike Wilde, Alan Blatecky, John McGee そしてロブ・クイック。
0.81
2007. The open science grid. 2007. オープンサイエンスのグリッドです 0.46
Journal of Physics: Conference Series 78, 1 (2007), 012057. Journal of Physics: Conference Series 78, 1 (2007), 012057。 0.38
[14] Rizzi, Andrea, Petrucciani, Giovanni, and Peruzzi, Marco. 14] Rizzi, Andrea, Petrucciani, Giovanni, Peruzzi, Marco 0.31
2019. A further reduction in CMS event data for analysis: the NANOAOD format. 2019. 分析用のCMSイベントデータのさらなる削減:NANOAODフォーマット。 0.54
EPJ Web Conf. epj web conf(英語) 0.44
214 (2019), 06021. 214 (2019), 06021. 0.37
https://doi.org/10.1 051/epjconf/20192140 6021 https://doi.org/10.1 051/epjconf/20192140 6021 0.15
[5] A. Dorigo, P. Elmer, F. Furano, and A. Hanushevsky. 5] a. dorigo, p. elmer, f. furano, a. hanushevsky。 0.79
2005. XROOTD - A highly scalable architecture for data access. 2005. XROOTD - データアクセスのための高度にスケーラブルなアーキテクチャ。 0.60
WSEAS Transactions on Computers 4, 4 (2005), 348–353. WSEAS Transactions on Computers 4, 4 (2005), 348–353。 0.43
[6] X. Espinal, S. Jezequel, M. Schulz, A. Sciabà, I. Vukotic, and F. Wuerthwein. X. Espinal, S. Jezequel, M. Schulz, A. Sciabà, I. Vukotic, F. Wuerthwein 0.40
2020. The Quest to solve the HL-LHC data access puzzle. 2020. HL-LHCデータアクセスパズルを解くためのクエスト。 0.58
EPJ Web of Conferences 245 (2020), 04027. EPJ Web of Conferences 245 (2020), 04027。 0.73
https://doi.org/10.1 051/epjconf/20202450 4027 https://doi.org/10.1 051/epjconf/20202450 4027 0.15
[7] E. Fajardo, A. Tadel, M. Tadel, B. Steer, T. Martin, and F. Würthwein. E. Fajardo, A. Tadel, M. Tadel, B. Steer, T. Martin, F. Würthwein. 0.41
2018. A federated Xrootd cache. 2018. フェデレートされたXrootdキャッシュ。 0.50
Journal of Physics: Conference Series 1085 (2018), 032025. journal of physics: conference series 1085 (2018)、032025。 0.38
[8] Edgar Fajardo, Derek Weitzel, Mats Rynge, Marian Zvada, John Hicks, Mat Selmeci, Brian Lin, Pascal Paschos, Brian Bockelman, Andrew Hanushevsky, Frank Würthwein, and Igor Sfiligoi. Edgar Fajardo氏、Derek Weitzel氏、Mats Rynge氏、Marian Zvada氏、John Hicks氏、Mat Selmeci氏、Brian Lin氏、Pascal Paschos氏、Brian Bockelman氏、Andrew Hanushevsky氏、Frank Würthwein氏、Igor Sfiligoi氏。 0.75
2020. Creating a content delivery network for general science on the internet backbone using XCaches. 2020. xcachesを使ってインターネットバックボーン上の一般科学のためのコンテンツ配信ネットワークを作成する。 0.57
EPJ Web of Conferences 245 (2020), 04041. EPJ Web of Conferences 245 (2020), 04041。 0.73
https://doi.org/10.1 051/epjconf/20202450 4041 https://doi.org/10.1 051/epjconf/20202450 4041 0.15
[9] Fajardo, Edgar, Tadel, Matevz, Balcas, Justas, Tadel, Alja, Würthwein, Frank, Davila, Diego, Guiang, Jonathan, and Sfiligoi, Igor. 9]Fajardo, Edgar, Tadel, Matevz, Balcas, Justas, Tadel, Alja, Würthwein, Frank, Davila, Diego, Guiang, Jonathan, Sfiligoi, Igor
訳抜け防止モード: 9] ファジャルド、エドガー、タデル、マテヴズ、バルカス justas, tadel, alja, würthwein, frank, davila。 diego(ディエゴ)、guang(ギアン)、jonathan(ジョナサン)、siligoi(イゴール)。
0.69
2020. Moving the California distributed CMS XCache from bare metal into containers using Kubernetes. 2020. カリフォルニアは、CMS XCacheをベアメタルからKubernetesを使用したコンテナに分散した。 0.55
EPJ Web Conf. epj web conf(英語) 0.44
245 (2020), 04042. 245 (2020), 04042. 0.37
https://doi.org/10.1 051/epjconf/20202450 4042 https://doi.org/10.1 051/epjconf/20202450 4042 0.15
[15] C Saranya and G Manikandan. 15] cサラニャとgマニカンダン 0.42
2013. A study on normalization techniques for privacy preserving data mining. 2013. プライバシー保護データマイニングにおける正規化手法に関する研究 0.61
International Journal of Engineering and Technology (IJET) 5, 3 (2013), 2701–2704. International Journal of Engineering and Technology (IJET) 5, 3 (2013), 2701–2704 0.41
[16] Alex Sherstinsky. アレックス・シェルスティンスキー(Alex Sherstinsky)。 0.58
2020. Fundamentals of recurrent neural network (RNN) and long short-term memory (LSTM) network. 2020. recurrent neural network(rnn)とlong short-term memory(lstm)ネットワークの基礎 0.57
Physica D: Nonlinear Phenomena 404 (2020), 132306. 物理学 D: 非線形現象 404 (2020), 132306。 0.78
[17] Shumway, Robert H and Stoffer, David S. 2017. [17] Shumway, Robert H and Stoffer, David S. 2017 0.41
Time Series Analysis and Its Applications: With R Examples (4 ed.). 時系列解析とその応用 : R例 (4 ed.) 0.67
Springer International Publishing AG. Springer International Publishing AG所属。 0.91
166–172 pages. [18] Alex Sim, Ezra Kissel, and Chin Guok. 166-172頁。 18]アレックス・シム、エズラ・キッセル、チン・グック 0.35
2022. Deploying in-network caches in support of distributed scientific data sharing. 2022. 分散科学データ共有をサポートするネットワーク内キャッシュのデプロイ。 0.61
https://doi.org/10.4 8550/ARXIV. https://doi.org/10.4 8550/ARXIV 0.20
2203.06843 2203.06843 0.29
[19] Derek Weitzel, Marian Zvada, Ilija Vukotic, Rob Gardner, Brian Bockelman, Mats Rynge, Edgar Hernandez, Brian Lin, and Mátyás Selmeci. 19] デレク・ワイツェル、マリアン・ズヴァダ、イリジャ・ヴコティック、ロブ・ガードナー、ブライアン・ボッケルマン、マッツ・リンゲ、エドガー・エルナンデス、ブライアン・リン、mátyás selmeci
訳抜け防止モード: [19 ]Derek Weitzel, Marian Zvada, Ilija Vukotic, Rob Gardner, Brian Bockelman, Mats Rynge, Edgar Hernandez ブライアン・リン(Brian Lin)とマティアス・セルメチ(Mátyás Selmeci)。
0.85
2019. StashCache: A Distributed Caching Federation for the Open Science Grid. 2019. StashCache: オープンサイエンスグリッドのための分散キャッシュフェデレーション。 0.55
PEARC ’19: Proceedings of the Practice and Experience in Advanced Research Computing on Rise of the Machines (learning), 1–7. PEARC ’19: Proceedings of the Practice and Experience in Advanced Research Computing on Rise of the Machines ( Learning), 1-7。 0.41
https://doi.org/10.1 145/3332186.3332212 https://doi.org/10.1 145/3332186.3332212 0.15

                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。