論文の概要: Towards a Generic Multimodal Architecture for Batch and Streaming Big
Data Integration
- arxiv url: http://arxiv.org/abs/2108.04343v1
- Date: Mon, 9 Aug 2021 20:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:32:52.203143
- Title: Towards a Generic Multimodal Architecture for Batch and Streaming Big
Data Integration
- Title(参考訳): バッチおよびストリーミングビッグデータ統合のための汎用マルチモーダルアーキテクチャを目指して
- Authors: Siham Yousfi and Maryem Rhanoui and Dalila Chiadmi
- Abstract要約: 本稿では,バッチ処理とストリーミング処理を組み合わせた汎用マルチモーダルアーキテクチャを提案する。
我々のアーキテクチャはバッチ処理を用いてデータ構造と内容を分析し、学習モデルを構築し、信頼性指数を計算する。
渋滞を検出するため,都市交通管理システムの文脈でアーキテクチャを検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Big Data are rapidly produced from various heterogeneous data sources. They
are of different types (text, image, video or audio) and have different levels
of reliability and completeness. One of the most interesting architectures that
deal with the large amount of emerging data at high velocity is called the
lambda architecture. In fact, it combines two different processing layers
namely batch and speed layers, each providing specific views of data while
ensuring robustness, fast and scalable data processing. However, most papers
dealing with the lambda architecture are focusing one single type of data
generally produced by a single data source. Besides, the layers of the
architecture are implemented independently, or, at best, are combined to
perform basic processing without assessing either the data reliability or
completeness. Therefore, inspired by the lambda architecture, we propose in
this paper a generic multimodal architecture that combines both batch and
streaming processing in order to build a complete, global and accurate insight
in near-real-time based on the knowledge extracted from multiple heterogeneous
Big Data sources. Our architecture uses batch processing to analyze the data
structures and contents, build the learning models and calculate the
reliability index of the involved sources, while the streaming processing uses
the built-in models of the batch layer to immediately process incoming data and
rapidly provide results. We validate our architecture in the context of urban
traffic management systems in order to detect congestions.
- Abstract(参考訳): ビッグデータは、さまざまな異種データソースから迅速に生成される。
それらはさまざまなタイプ(テキスト、画像、ビデオ、音声)を持ち、信頼性と完全性のレベルが異なる。
大量の新興データを高速で処理する最も興味深いアーキテクチャの1つは、lambda architectureと呼ばれるものだ。
実際、バッチ層とスピード層という2つの異なる処理層を組み合わせて、それぞれがデータの特定のビューを提供し、堅牢性、高速でスケーラブルなデータ処理を保証する。
しかし、lambdaアーキテクチャを扱うほとんどの論文は、単一のデータソースによって一般的に生成される単一の種類のデータに焦点を当てている。
さらに、アーキテクチャのレイヤは独立して実装されるか、あるいは、データ信頼性と完全性の両方を評価することなく、基本的な処理を実行するために結合される。
そこで本稿では,ラムダアーキテクチャに触発されて,複数の異種ビッグデータソースから抽出された知識に基づいて,ほぼリアルタイムに完全かつグローバルで正確な洞察を構築するために,バッチ処理とストリーミング処理を組み合わせる汎用マルチモーダルアーキテクチャを提案する。
私たちのアーキテクチャでは、バッチ処理を使用してデータ構造とコンテンツを分析し、学習モデルを構築し、関連するソースの信頼性指標を算出します。
交通渋滞を検知するために,都市交通管理システムの文脈でアーキテクチャを検証する。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - D$^4$M: Dataset Distillation via Disentangled Diffusion Model [4.568710926635445]
遠方拡散モデル(D$4$M)によるデータセット蒸留のための効率的なフレームワークを提案する。
アーキテクチャに依存した手法と比較して、D$4$Mは一貫性を保証するために遅延拡散モデルを採用し、ラベル情報をカテゴリのプロトタイプに組み込む。
D$4$Mは優れた性能とロバストな一般化を示し、多くの面においてSOTAメソッドを上回っている。
論文 参考訳(メタデータ) (2024-07-21T12:16:20Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - FASER: Binary Code Similarity Search through the use of Intermediate
Representations [0.8594140167290099]
クロスアーキテクチャバイナリコード類似性検索は、多くの研究で研究されている。
本稿では,Function as a String Encoded Representation (FASER)を提案する。
論文 参考訳(メタデータ) (2023-10-05T15:36:35Z) - Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for
Complex Visual Reasoning Tasks [4.093474663507322]
ブリッジアーキテクチャは、VQA、キャプション、画像検索といったタスクを解決するために、画像空間からテキスト空間へのプロジェクトである。
我々はNLVR2データセットの従来のブリッジアーキテクチャを拡張し、細粒度オブジェクト推論をファシリケートするためにオブジェクトレベル機能を追加する。
我々の分析では、ブリッジアーキテクチャにオブジェクトレベル機能を追加しても役に立ちませんし、NLVR2のような複雑な推論タスクにおいて、マルチモーダルデータでの事前トレーニングが良いパフォーマンスの鍵であることを示しています。
論文 参考訳(メタデータ) (2023-07-31T03:57:31Z) - Efficient Search of Multiple Neural Architectures with Different
Complexities via Importance Sampling [3.759936323189417]
本研究では、2つのメトリクスの重み付け和からなる目的関数を最適化するアーキテクチャの複雑性を考慮したワンショットNASに焦点を当てた。
提案手法は,CIAFR-10およびImageNetデータセット上の畳み込みニューラルネットワークのアーキテクチャ探索に適用される。
論文 参考訳(メタデータ) (2022-07-21T07:06:03Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - A Query Language for Summarizing and Analyzing Business Process Data [6.952242545832663]
プロセスグラフ(Process Graph)やプロセスグラフ(Process Graph)といった,プロセスデータをグラフとしてモデル化するフレームワークを提案する。
プロセスグラフのクエリ、探索、分析のためのスケーラブルなアーキテクチャを実装しました。
論文 参考訳(メタデータ) (2021-05-23T11:07:53Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。