論文の概要: Optimizing the AI Development Process by Providing the Best Support
Environment
- arxiv url: http://arxiv.org/abs/2305.00136v2
- Date: Mon, 14 Aug 2023 13:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 19:59:51.308689
- Title: Optimizing the AI Development Process by Providing the Best Support
Environment
- Title(参考訳): ベストサポート環境の提供によるAI開発プロセスの最適化
- Authors: Taha Khamis, Hamam Mokayed
- Abstract要約: 機械学習の主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。
このフレームワークは、ディープラーニングの進歩を使ってデータ拡張を実行するために、python言語を使用して構築された。
- 参考スコア(独自算出の注目度): 0.756282840161499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The purpose of this study is to investigate the development process for
Artificial inelegance (AI) and machine learning (ML) applications in order to
provide the best support environment. The main stages of ML are problem
understanding, data management, model building, model deployment and
maintenance. This project focuses on investigating the data management stage of
ML development and its obstacles as it is the most important stage of machine
learning development because the accuracy of the end model is relying on the
kind of data fed into the model. The biggest obstacle found on this stage was
the lack of sufficient data for model learning, especially in the fields where
data is confidential. This project aimed to build and develop a framework for
researchers and developers that can help solve the lack of sufficient data
during data management stage. The framework utilizes several data augmentation
techniques that can be used to generate new data from the original dataset
which can improve the overall performance of the ML applications by increasing
the quantity and quality of available data to feed the model with the best
possible data. The framework was built using python language to perform data
augmentation using deep learning advancements.
- Abstract(参考訳): 本研究の目的は,AI(Artificial Inelegance)と機械学習(ML)アプリケーションの開発プロセスを調査し,最高のサポート環境を提供することである。
MLの主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。
本研究は,機械学習開発の最重要段階であるML開発におけるデータ管理段階とその障害を,エンドモデルの精度がモデルに入力されるデータの種類に依存しているため調査することに焦点を当てる。
この段階で見つかった最大の障害は、特にデータが機密である分野において、モデル学習に十分なデータがないことである。
このプロジェクトの目的は、データ管理の段階で十分なデータ不足を解決するための、研究者と開発者のためのフレームワークの構築と開発である。
このフレームワークは、オリジナルのデータセットから新しいデータを生成するために使用可能な、いくつかのデータ拡張技術を利用して、利用可能なデータ量と品質を増大させることで、MLアプリケーションの全体的なパフォーマンスを向上させることができる。
このフレームワークはpython言語を使用して構築され、ディープラーニングの進歩を使ってデータ拡張を行う。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - Training Data for Large Language Model [2.1178416840822027]
ChatGPTは、事前学習コーパスのパラメータとスケールの点で、以前のモデルを上回った。
ChatGPTは、大量の高品質な人間注釈付きデータを微調整することで、革命的なパフォーマンス向上を実現した。
本稿では,大規模言語モデルの事前学習と微調整の現状を概説する。
論文 参考訳(メタデータ) (2024-11-12T11:09:58Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。
データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。
次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文 参考訳(メタデータ) (2024-04-15T12:01:42Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす
本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Towards Collaborative Intelligence: Routability Estimation based on
Decentralized Private Data [33.22449628584873]
本研究では,EDAにおける機械学習アプリケーションに対するフェデレートラーニングに基づくアプローチを提案する。
このアプローチでは、MLモデルを複数のクライアントのデータで協調的にトレーニングできるが、データのプライバシを尊重するためのデータへの明示的なアクセスは行わない。
包括的データセットの実験により、協調トレーニングは個々のローカルモデルと比較して精度を11%向上することが示された。
論文 参考訳(メタデータ) (2022-03-30T02:35:40Z) - Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文 参考訳(メタデータ) (2021-12-15T02:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。