論文の概要: StreamSampling.jl: Efficient Sampling from Data Streams in Julia
- arxiv url: http://arxiv.org/abs/2603.21996v1
- Date: Mon, 23 Mar 2026 14:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.699788
- Title: StreamSampling.jl: Efficient Sampling from Data Streams in Julia
- Title(参考訳): StreamSampling.jl: Juliaのデータストリームからの効率的なサンプリング
- Authors: Adriano Meligrana,
- Abstract要約: StreamSampling$.$jlは、単一のパスでデータストリームをサンプリングする効率的な方法を提供するために設計されたJuliaライブラリである。
本稿では,従来のサンプリング手法に対するライブラリの機能とその優位性について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: StreamSampling$.$jl is a Julia library designed to provide general and efficient methods for sampling from data streams in a single pass, even when the total number of items is unknown. In this paper, we describe the capabilities of the library and its advantages over traditional sampling procedures, such as maintaining a small, constant memory footprint and avoiding the need to fully materialize the stream in memory. Furthermore, we provide empirical benchmarks comparing online sampling methods against standard approaches, demonstrating performance and memory improvements.
- Abstract(参考訳): StreamSampling$
$jlは、単一のパスでデータストリームからサンプリングする汎用的で効率的な方法を提供するために設計されたJuliaライブラリである。
本稿では,メモリフットプリントの小型化や,メモリ内のストリームの完全化の不要化など,従来のサンプリング手法に対するライブラリの機能とそのメリットについて述べる。
さらに,オンラインサンプリング手法を標準手法と比較し,性能とメモリ改善の実証実験を行った。
関連論文リスト
- Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - TraceMesh: Scalable and Streaming Sampling for Distributed Traces [51.08892669409318]
TraceMeshは、分散トレースのためのスケーラブルでストリーミングなサンプリングツールである。
以前は見つからなかったトレース機能を、統一的で合理化された方法で扱える。
TraceMeshは、サンプリング精度と効率の両方において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-06-11T06:13:58Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - AdaSelection: Accelerating Deep Learning Training through Data
Subsampling [27.46630703428186]
適応型サブサンプリング手法であるAdaSelectionを導入し,各ミニバッチ内の最も情報性の高いサブサンプルを同定する。
業界標準のベースラインと比較すると、AdaSelectionは一貫して優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-19T07:01:28Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Pattern Recognition and Event Detection on IoT Data-streams [0.483420384410068]
ビッグデータストリームは、その急速なペースと限られた情報ライフタイムのために、処理が難しい。
ストリーム全体あるいはその大きな部分にわたって関数を格納、送信、計算しながら、ストリームサンプルを収集、通信することは困難である。
ストリーム技術は、時間や精度の制限だけでなく、計算能力やメモリなどの1つ以上のリソースの限られた容量を意味する。
論文 参考訳(メタデータ) (2022-03-02T15:19:42Z) - Improved Multi-objective Data Stream Clustering with Time and Memory
Optimization [0.0]
本稿では,新しいデータストリームクラスタリング手法(IMOC-Stream)を提案する。
2つの異なる目的関数を使用して、データの異なる側面をキャプチャする。
実験により, 任意の形状, コンパクト, 分離されたクラスタにデータストリームを分割できることを示す。
論文 参考訳(メタデータ) (2022-01-13T17:05:56Z) - AutoSampling: Search for Effective Data Sampling Schedules [118.20014773014671]
モデル学習のためのサンプリングスケジュールを自動的に学習するAutoSampling法を提案する。
提案手法の有効性を示す様々な画像分類タスクに本手法を適用した。
論文 参考訳(メタデータ) (2021-05-28T09:39:41Z) - A Constant-time Adaptive Negative Sampling [33.585006286223994]
サンプリングスキームが真に適応し,一定の時間内に負のサンプルを生成できる分布のクラスを示す。
C++のコモディティCPUへの実装は、ウォールクロック時間の観点から、はるかに高速です。
論文 参考訳(メタデータ) (2020-12-31T18:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。