論文の概要: Machine learning on small size samples: A synthetic knowledge synthesis
- arxiv url: http://arxiv.org/abs/2103.01002v1
- Date: Mon, 1 Mar 2021 13:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:23:58.367579
- Title: Machine learning on small size samples: A synthetic knowledge synthesis
- Title(参考訳): 小型サンプルを用いた機械学習:合成知識合成
- Authors: Peter Kokol, Marko Kokol, Sa\v{s}o Zagoranski
- Abstract要約: この研究の目的は、機械学習における小さなデータの問題とどのように解決されるのかという質問に答えることである。
本研究は,小データセットの利用に関する研究論文の件数に対して,肯定的な傾向を示した。
顕著な国際協力にもかかわらず、経済発展途上国における研究文献生産の地域集中が観察された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the increasingly important technologies dealing with the growing
complexity of the digitalization of almost all human activities is Artificial
intelligence, more precisely machine learning Despite the fact, that we live in
a Big data world where almost everything is digitally stored, there are many
real-world situations, where researchers are faced with small data samples. The
present study aim is to answer the following research question namely What is
the small data problem in machine learning and how it is solved?. Our
bibliometric study showed a positive trend in the number of research
publications concerning the use of small datasets and substantial growth of the
research community dealing with the small dataset problem, indicating that the
research field is moving toward higher maturity levels. Despite notable
international cooperation, the regional concentration of research literature
production in economically more developed countries was observed.
- Abstract(参考訳): ほぼすべての人間の活動のデジタル化の複雑さの増大に対処する、ますます重要な技術のひとつが人工知能であり、より正確には機械学習である。
本研究の目的は,機械学習における小さなデータ問題とは何か,どのように解決されるのかという問いに答えることである。
文献調査の結果,小データセットの利用や,小データセット問題を扱う研究コミュニティの実質的な成長に関して,研究分野が成熟度向上に向かっていることを示す研究出版物数の増加傾向が示された。
顕著な国際協力にもかかわらず、経済発展途上国における研究文献生産の地域集中が観察された。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey [26.670507323784616]
大規模言語モデル(LLM)は、合成データ生成による現実世界のデータ制限を軽減するために、データ中心のソリューションを提供する。
本稿では、合成データ生成の一般的なワークフローに基づく、関連する研究の組織を提供する。
論文 参考訳(メタデータ) (2024-06-14T07:47:09Z) - Reproducibility and Geometric Intrinsic Dimensionality: An Investigation on Graph Neural Network Research [0.0]
これらの努力に基づいて構築することは、マシンラーニングにおけるもうひとつの重要な課題、すなわち次元の呪いに向かっています。
本研究は,機械学習モデルが学習対象のデータセットの拡張次元にどのような影響を受けているのかを,本質的な次元の密接な関連概念を用いて検討する。
論文 参考訳(メタデータ) (2024-03-13T11:44:30Z) - How to Do Machine Learning with Small Data? -- A Review from an
Industrial Perspective [1.443696537295348]
著者らは、"小さなデータ"の一般的な用語とそのエンジニアリングと産業アプリケーションの役割を解釈することに重点を置いている。
小さなデータはビッグデータと比較して様々な特性で定義され、機械学習形式が導入された。
産業アプリケーションにおける小さなデータによる機械学習の5つの重要な課題を提示する。
論文 参考訳(メタデータ) (2023-11-13T07:39:13Z) - On the Opportunities of Green Computing: A Survey [80.21955522431168]
人工知能(AI)は数十年にわたり、技術と研究において大きな進歩を遂げてきた。
高いコンピューティングパワーの必要性は、より高い二酸化炭素排出量をもたらし、研究の公正性を損なう。
コンピューティングリソースの課題とAIの環境への影響に取り組むため、グリーンコンピューティングはホットな研究トピックとなっている。
論文 参考訳(メタデータ) (2023-11-01T11:16:41Z) - Machine Learning for Synthetic Data Generation: A Review [23.073056971997715]
本稿では,合成データの生成を目的とした機械学習モデルを用いた既存研究についてレビューする。
このレビューは、合成データ生成、コンピュータビジョン、スピーチ、自然言語処理、ヘルスケア、ビジネスドメインの応用から始まる様々な視点を網羅している。
この論文は、合成データ生成に関するプライバシーと公平性に関する重要な側面についても論じている。
論文 参考訳(メタデータ) (2023-02-08T13:59:31Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Open Environment Machine Learning [84.90891046882213]
従来の機械学習研究は、学習プロセスの重要な要素が不変であるような近世界のシナリオを想定している。
本稿では,新しいクラスを創出する技術,デクリメンタル/インクリメンタルな特徴,データ分散の変化,学習目標の変化,理論的諸問題について概説する。
論文 参考訳(メタデータ) (2022-06-01T11:57:56Z) - Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning
Research [3.536605202672355]
我々は,データセットの利用パターンが,2015年から2020年にかけての機械学習サブコミュニティと時間にわたってどのように異なるかを検討した。
タスクコミュニティ内のデータセットに対する濃度の増加,タスクからのデータセットの大幅な採用,少数のエリート機関内に研究者が導入したデータセットへの集中,などが確認できた。
論文 参考訳(メタデータ) (2021-12-03T05:01:47Z) - Challenges in biomarker discovery and biorepository for Gulf-war-disease
studies: a novel data platform solution [48.7576911714538]
ROSALINDという新しいデータプラットフォームを導入し、課題を克服し、健全で重要なコラボレーションを育み、科学的調査を進めます。
ROSALINDは、自己管理されたアクセシビリティ、リンク性、可積分性、中立性、信頼性を持つリソース有機体を指します。
過去12ヶ月のGWI研究におけるROSALINDの展開により、データ実験と分析のペースが加速し、多数のエラーソースが削除され、研究品質と生産性が向上しました。
論文 参考訳(メタデータ) (2021-02-04T20:38:30Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。