論文の概要: Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets
- arxiv url: http://arxiv.org/abs/2011.08663v1
- Date: Thu, 12 Nov 2020 16:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:53:24.760737
- Title: Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets
- Title(参考訳): ビッグデータのためのOccams Razor?
大規模非構造データセットの品質検出について
- Authors: Birgitta Dresp-Langley, Ole Kristian Ekseth, Jan Fesl, Seiichi Gohshi,
Marc Kurz, Hans-Werner Sehring
- Abstract要約: 分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。
データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。
このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting quality in large unstructured datasets requires capacities far
beyond the limits of human perception and communicability and, as a result,
there is an emerging trend towards increasingly complex analytic solutions in
data science to cope with this problem. This new trend towards analytic
complexity represents a severe challenge for the principle of parsimony or
Occams Razor in science. This review article combines insight from various
domains such as physics, computational science, data engineering, and cognitive
science to review the specific properties of big data. Problems for detecting
data quality without losing the principle of parsimony are then highlighted on
the basis of specific examples. Computational building block approaches for
data clustering can help to deal with large unstructured datasets in minimized
computation time, and meaning can be extracted rapidly from large sets of
unstructured image or video data parsimoniously through relatively simple
unsupervised machine learning algorithms. Why we still massively lack in
expertise for exploiting big data wisely to extract relevant information for
specific tasks, recognize patterns, generate new information, or store and
further process large amounts of sensor data is then reviewed; examples
illustrating why we need subjective views and pragmatic methods to analyze big
data contents are brought forward. The review concludes on how cultural
differences between East and West are likely to affect the course of big data
analytics, and the development of increasingly autonomous artificial
intelligence aimed at coping with the big data deluge in the near future.
- Abstract(参考訳): 大規模な非構造化データセットの品質を検出するには、人間の知覚と通信性の限界をはるかに超える能力が必要であり、その結果、この問題に対処するためにデータサイエンスにおける複雑な分析ソリューションがますます増えている。
分析複雑性に対するこの新しい傾向は、科学におけるparsimonyやoccams razorの原理に対する厳しい挑戦を表している。
本稿では、物理、計算科学、データ工学、認知科学など、さまざまな分野の知見を組み合わせて、ビッグデータの特定の特性をレビューする。
パーシモニーの原理を損なうことなくデータ品質を検出する問題は、具体的な例に基づいて強調される。
データクラスタリングのための計算的ビルディングブロックアプローチは、構造化されていない大規模なデータセットを最小限の計算時間で処理するのに役立つ。
ビッグデータを賢く活用する専門知識が不足している理由として,特定のタスクに関する関連情報を抽出したり,パターンを認識したり,新たな情報を生成したり,あるいは大量のセンサデータを格納したり,さらに処理したりする場合があります。
このレビューは、東アジアと西部の文化的な違いがビッグデータ分析の過程にどのように影響するか、そして近い将来、ビッグデータの崩壊に対処するための自律的な人工知能の開発について結論付けている。
関連論文リスト
- Big data searching using words [0.0]
データ検索における単語の近傍構造に関する基本的な考え方を紹介する。
また、ビッグデータ検索におけるビッグデータプライマリを導入し、データ検索における異常検出における近傍構造の適用について論じる。
論文 参考訳(メタデータ) (2024-09-10T13:46:14Z) - Enhancing High-Energy Particle Physics Collision Analysis through Graph Data Attribution Techniques [0.0]
本稿では、シミュレーション粒子衝突データセットを用いて、グラフ分類パイプライン内の影響分析を統合する。
グラフニューラルネットワークを初等訓練に用いることにより,学習サンプルの同定に勾配に基づくデータ影響法を適用した。
破棄された要素を分析することで、イベント分類タスクに関するさらなる洞察を得ることができる。
論文 参考訳(メタデータ) (2024-07-20T12:40:03Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - Towards Generalizable Data Protection With Transferable Unlearnable
Examples [50.628011208660645]
本稿では、転送不可能な例を生成することによって、新しい一般化可能なデータ保護手法を提案する。
私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。
論文 参考訳(メタデータ) (2023-05-18T04:17:01Z) - Anomaly detection using data depth: multivariate case [3.046315755726937]
異常検出はデータ分析と機械学習の一分野である。
データ深度(Data depth)は、データセットへの空間の任意の点の帰属度を測定する統計関数である。
本稿では、データ深度を効率的な異常検出ツールとして検討し、異常ラベルを低い深さの観測値に割り当てる。
論文 参考訳(メタデータ) (2022-10-06T12:14:25Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Audacity of huge: overcoming challenges of data scarcity and data
quality for machine learning in computational materials discovery [1.0036312061637764]
機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。
材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。
手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。
論文 参考訳(メタデータ) (2021-11-02T21:43:58Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Towards an Integrated Platform for Big Data Analysis [4.5257812998381315]
本稿では,これらすべての側面を統合した,ビッグデータ解析のための統合型プレート形式のビジョンについて述べる。
このアプローチの主な利点は、プラットフォーム全体の拡張スケーラビリティ、アルゴリズムのパラメータ化の改善、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの改善である。
論文 参考訳(メタデータ) (2020-04-27T03:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。