論文の概要: Big data searching using words
- arxiv url: http://arxiv.org/abs/2409.15346v1
- Date: Tue, 10 Sep 2024 13:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 15:56:09.576586
- Title: Big data searching using words
- Title(参考訳): 単語を用いたビッグデータ検索
- Authors: Santanu Acharjee, Ripunjoy Choudhury,
- Abstract要約: データ検索における単語の近傍構造に関する基本的な考え方を紹介する。
また、ビッグデータ検索におけるビッグデータプライマリを導入し、データ検索における異常検出における近傍構造の適用について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Big data analytics is one of the most promising areas of new research and development in computer science, enterprises, e-commerce, and defense. For many organizations, big data is regarded as one of their most important strategic assets. This explosive growth has made it necessary to develop effective techniques for examining and analyzing big data from a mathematical perspective. Among various methods of analyzing big data, topological data analysis (TDA) is now considered one of the useful tools. However, there is no fundamental concept related to topological structure in big data. In this paper, we introduce some fundamental ideas related to the neighborhood structure of words in data searching, which can be extended to form important topological structures of big data in the future. Additionally, we introduce big data primal in big data searching and discuss the application of neighborhood structures in detecting anomalies in data searching using the Jaccard similarity coefficient.
- Abstract(参考訳): ビッグデータ分析は、コンピュータ科学、企業、eコマース、防衛における新しい研究開発の最も有望な分野の1つである。
多くの組織にとって、ビッグデータは最も重要な戦略的資産の1つだと考えられている。
この爆発的な成長は、数学的観点からビッグデータを調べ分析するための効果的な技術を開発する必要がある。
ビッグデータ分析の様々な方法の中で、現在、トポロジカルデータ解析(TDA)は有用なツールの1つと考えられている。
しかし、ビッグデータにおけるトポロジカルな構造に関する基本的な概念は存在しない。
本稿では,将来,ビッグデータの重要なトポロジ的構造を形成するために拡張可能な,データ検索における単語の近傍構造に関する基本的な考え方を紹介する。
さらに,ビッグデータ検索におけるビッグデータプライマリを導入し,Jaccard類似度係数を用いたデータ検索における異常検出における近傍構造の適用について論じる。
関連論文リスト
- Exploiting Formal Concept Analysis for Data Modeling in Data Lakes [0.29998889086656577]
本稿では,形式的概念分析(FCA)に根ざした実用的なデータ可視化と分析手法を提案する。
データ構造をオブジェクトとして表現し、概念格子を分析し、これらの構造を統一し共通のスキーマを確立するための2つの戦略を提示します。
私たちは、34の異なるフィールド名しか持たない、80%のデータ構造を完全にカバーしています。
論文 参考訳(メタデータ) (2024-08-11T13:58:31Z) - Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research [90.91438597133211]
我々は、強化学習の適用において重要なシステムのボトルネックを克服するために設計されたフレームワークであるWarpSciを紹介する。
我々は、CPUとGPU間のデータ転送の必要性を排除し、数千のシミュレーションを同時実行可能にする。
論文 参考訳(メタデータ) (2024-08-01T21:38:09Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Big Data and Analytics Implementation in Tertiary Institutions to
Predict Students Performance in Nigeria [0.0]
Big Dataという言葉は、従来のデータ処理技術では扱えない大量のデータを指すために作られた。
本稿では,教育機関に関係のあるビッグデータの特徴について考察する。
学習機関におけるビッグデータと分析の導入に影響を与える要因について検討する。
論文 参考訳(メタデータ) (2022-07-29T13:52:24Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets [0.0]
分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。
データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。
このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
論文 参考訳(メタデータ) (2020-11-12T16:06:01Z) - Big Issues for Big Data: challenges for critical spatial data analytics [0.0]
ビッグデータの収集と分析の基礎となる課題に焦点を合わせます。
通常バイアスのあるビッグデータを扱う場合、推論に関連する問題を考慮します。
特に、個々のデータサイエンス研究をより広い社会的・経済的文脈に配置する必要性を考察する。
論文 参考訳(メタデータ) (2020-07-22T09:11:56Z) - Towards an Integrated Platform for Big Data Analysis [4.5257812998381315]
本稿では,これらすべての側面を統合した,ビッグデータ解析のための統合型プレート形式のビジョンについて述べる。
このアプローチの主な利点は、プラットフォーム全体の拡張スケーラビリティ、アルゴリズムのパラメータ化の改善、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの改善である。
論文 参考訳(メタデータ) (2020-04-27T03:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。