論文の概要: TensAIR: Online Learning from Data Streams via Asynchronous Iterative
Routing
- arxiv url: http://arxiv.org/abs/2211.10280v1
- Date: Fri, 18 Nov 2022 15:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 16:02:36.822753
- Title: TensAIR: Online Learning from Data Streams via Asynchronous Iterative
Routing
- Title(参考訳): TensAIR: 非同期反復ルーティングによるデータストリームからのオンライン学習
- Authors: Mauro Dalle Lucca Tosi, Vinu E. Venugopal, Martin Theobald
- Abstract要約: 我々は、データストリームからオンライン学習のためのエンドツーエンドのデータフローエンジンを提供するTensAIRを紹介します。
TensAIRはMap Reduce Joinのような一般的なデータフロー演算子をサポートし、データ並列OLトレインによって拡張され、予測されている。
本研究では,(1)ネットワーク上に展開されるワーカノード数,(2)データバッチがデータフロー演算子に届くスループットの観点から,TensAIRがほぼ線形スケールアウトを達成することを示す。
- 参考スコア(独自算出の注目度): 1.9164932573056914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online learning (OL) from data streams is an emerging area of research that
encompasses numerous challenges from stream processing, machine learning, and
networking. Recent extensions of stream-processing platforms, such as Apache
Kafka and Flink, already provide basic extensions for the training of neural
networks in a stream-processing pipeline. However, these extensions are not
scalable and flexible enough for many real-world use-cases, since they do not
integrate the neural-network libraries as a first-class citizen into their
architectures. In this paper, we present TensAIR, which provides an end-to-end
dataflow engine for OL from data streams via a protocol to which we refer as
asynchronous iterative routing. TensAIR supports the common dataflow operators,
such as Map, Reduce, Join, and has been augmented by the data-parallel OL
functions train and predict. These belong to the new Model operator, in which
an initial TensorFlow model (either freshly initialized or pre-trained) is
replicated among multiple decentralized worker nodes. Our decentralized
architecture allows TensAIR to efficiently shard incoming data batches across
the distributed model replicas, which in turn trigger the model updates via
asynchronous stochastic gradient descent. We empirically demonstrate that
TensAIR achieves a nearly linear scale-out in terms of (1) the number of worker
nodes deployed in the network, and (2) the throughput at which the data batches
arrive at the dataflow operators. We exemplify the versatility of TensAIR by
investigating both sparse (Word2Vec) and dense (CIFAR-10) use-cases, for which
we are able to demonstrate very significant performance improvements in
comparison to Kafka, Flink, and Horovod. We also demonstrate the magnitude of
these improvements by depicting the possibility of real-time concept drift
adaptation of a sentiment analysis model trained over a Twitter stream.
- Abstract(参考訳): データストリームからのオンライン学習(OL)は、ストリーム処理、機械学習、ネットワークといった多くの課題を含む、新たな研究分野である。
Apache KafkaやFlinkといったストリーム処理プラットフォームの最近の拡張は、ストリーム処理パイプラインでニューラルネットワークをトレーニングするための基本的な拡張をすでに提供している。
しかしながら、これらの拡張は、ニューラルネットワークライブラリを第一級市民としてアーキテクチャに統合していないため、多くの現実世界のユースケースで十分なスケーラビリティと柔軟性を持っていない。
本稿では、非同期反復ルーティングと呼ばれるプロトコルを介して、データストリームからOLのためのエンドツーエンドのデータフローエンジンを提供するTensAIRを提案する。
TensAIRはMap、Reducee、Joinといった一般的なデータフロー演算子をサポートし、データ並列OL関数のトレーニングと予測によって拡張されている。
これらは新しいModelオペレータに属し、初期TensorFlowモデル(新しく初期化または事前トレーニングされた)が複数の分散ワーカーノード間で複製される。
当社の分散アーキテクチャにより、TensAIRは分散モデルのレプリカをまたいで入ってくるデータバッチを効率的にシャードすることができ、非同期確率勾配勾配によってモデルの更新をトリガーします。
我々は,tensairが,(1)ネットワークにデプロイされたワーカノード数,(2)データバッチがデータフローオペレータに到達するスループットという観点から,ほぼ線形スケールアウトを実現することを実証する。
スパース(Word2Vec)と高密度(CIFAR-10)の両方のユースケースを調査して、TensAIRの汎用性を実証しています。
また,twitterストリーム上で訓練された感情分析モデルのリアルタイム・コンセプト・ドリフト適応の可能性を示すことで,これらの改善の大きさを示す。
関連論文リスト
- BayesFlow: Amortized Bayesian Workflows With Neural Networks [0.0]
この原稿はPythonライブラリのBayesFlowを紹介し、アモートされたデータ圧縮と推論のための確立したニューラルネットワークアーキテクチャのシミュレーションベースのトレーニングを行う。
Amortized Bayesian推論は、BayesFlowで実装されているもので、モデルシミュレーションでカスタムニューラルネットワークをトレーニングし、その後のモデル適用のためにこれらのネットワークを再使用することができる。
論文 参考訳(メタデータ) (2023-06-28T08:41:49Z) - On the effectiveness of partial variance reduction in federated learning
with heterogeneous data [27.527995694042506]
クライアント間の最終分類層の多様性は、FedAvgアルゴリズムの性能を阻害することを示す。
そこで本研究では,最終層のみの分散還元によるモデル修正を提案する。
同様の通信コストや低い通信コストで既存のベンチマークを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-05T11:56:35Z) - Continual Learning with Optimal Transport based Mixture Model [17.398605698033656]
成熟最適輸送理論(OT-MM)の優れた性質に基づくオンライン混合モデル学習手法を提案する。
提案手法は,現在の最先端のベースラインを大きく上回ることができる。
論文 参考訳(メタデータ) (2022-11-30T06:40:29Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Decoupled Greedy Learning of CNNs for Synchronous and Asynchronous
Distributed Learning [3.7722254371820987]
Decoupled Greedy Learning (DGL)と呼ばれる,最小限のフィードバックに基づくシンプルな代替案を検討する。
近年,大規模な画像分類において,畳み込みニューラルネットワーク(CNN)の文脈で有効であることが示されている。
我々は、この手法が収束し、シーケンシャル・ソルバと比較されることを理論的、実証的に示す。
論文 参考訳(メタデータ) (2021-06-11T13:55:17Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - On the performance of deep learning models for time series
classification in streaming [0.0]
この研究は、データストリーミング分類のための様々なタイプのディープアーキテクチャのパフォーマンスを評価することである。
複数の時系列データセット上で,多層パーセプトロン,リカレント,畳み込み,時間的畳み込みニューラルネットワークなどのモデルを評価する。
論文 参考訳(メタデータ) (2020-03-05T11:41:29Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。