Fugu-MT 論文翻訳(概要): Optimizing the AI Development Process by Providing the Best Support Environment

論文の概要: Optimizing the AI Development Process by Providing the Best Support Environment

arxiv url: http://arxiv.org/abs/2305.00136v3
Date: Tue, 15 Aug 2023 08:15:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 16:48:54.238291
Title: Optimizing the AI Development Process by Providing the Best Support Environment
Title（参考訳）: ベストサポート環境の提供によるAI開発プロセスの最適化
Authors: Taha Khamis, Hamam Mokayed
Abstract要約: 機械学習の主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。このフレームワークは、ディープラーニングの進歩を使ってデータ拡張を実行するために、python言語を使用して構築された。
参考スコア（独自算出の注目度）: 0.756282840161499
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The purpose of this study is to investigate the development process for Artificial inelegance (AI) and machine learning (ML) applications in order to provide the best support environment. The main stages of ML are problem understanding, data management, model building, model deployment and maintenance. This project focuses on investigating the data management stage of ML development and its obstacles as it is the most important stage of machine learning development because the accuracy of the end model is relying on the kind of data fed into the model. The biggest obstacle found on this stage was the lack of sufficient data for model learning, especially in the fields where data is confidential. This project aimed to build and develop a framework for researchers and developers that can help solve the lack of sufficient data during data management stage. The framework utilizes several data augmentation techniques that can be used to generate new data from the original dataset which can improve the overall performance of the ML applications by increasing the quantity and quality of available data to feed the model with the best possible data. The framework was built using python language to perform data augmentation using deep learning advancements.
Abstract（参考訳）: 本研究の目的は,AI(Artificial Inelegance)と機械学習(ML)アプリケーションの開発プロセスを調査し,最高のサポート環境を提供することである。 MLの主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。本研究は,機械学習開発の最重要段階であるML開発におけるデータ管理段階とその障害を,エンドモデルの精度がモデルに入力されるデータの種類に依存しているため調査することに焦点を当てる。この段階で見つかった最大の障害は、特にデータが機密である分野において、モデル学習に十分なデータがないことである。このプロジェクトの目的は、データ管理の段階で十分なデータ不足を解決するための、研究者と開発者のためのフレームワークの構築と開発である。このフレームワークは、オリジナルのデータセットから新しいデータを生成するために使用可能な、いくつかのデータ拡張技術を利用して、利用可能なデータ量と品質を増大させることで、MLアプリケーションの全体的なパフォーマンスを向上させることができる。このフレームワークはpython言語を使用して構築され、ディープラーニングの進歩を使ってデータ拡張を行う。

関連論文リスト

Data Science and Technology Towards AGI Part I: Tiered Data Management [53.64581824953229]
我々は、人工知能の開発がデータモデル共進化の新しい段階に入ったと論じる。我々は、未処理のリソースから組織的で検証可能な知識まで、L0-L4階層のデータ管理フレームワークを紹介します。提案手法の有効性を実証研究により検証する。
論文参考訳（メタデータ） (2026-02-09T18:47:51Z)
From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文参考訳（メタデータ） (2025-09-14T12:20:39Z)
ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文参考訳（メタデータ） (2025-05-12T12:48:30Z)
Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。 CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文参考訳（メタデータ） (2025-01-17T17:51:22Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Language Models as Continuous Self-Evolving Data Engineers [32.67875951851165]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。従来のトレーニングアプローチは、専門家ラベル付きデータに大きく依存しています。我々はLANCEという新しいパラダイムを提案し、LLMはデータの自動生成、クリーニング、レビュー、注釈付けによって自らを訓練することができる。
論文参考訳（メタデータ） (2024-12-19T18:28:41Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。 LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文参考訳（メタデータ） (2024-11-19T09:35:28Z)
Training Data for Large Language Model [2.1178416840822027]
ChatGPTは、事前学習コーパスのパラメータとスケールの点で、以前のモデルを上回った。 ChatGPTは、大量の高品質な人間注釈付きデータを微調整することで、革命的なパフォーマンス向上を実現した。本稿では,大規模言語モデルの事前学習と微調整の現状を概説する。
論文参考訳（メタデータ） (2024-11-12T11:09:58Z)
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文参考訳（メタデータ） (2024-10-16T16:12:39Z)
AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文参考訳（メタデータ） (2024-04-15T12:01:42Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文参考訳（メタデータ） (2023-12-04T07:42:16Z)
Towards Collaborative Intelligence: Routability Estimation based on Decentralized Private Data [33.22449628584873]
本研究では,EDAにおける機械学習アプリケーションに対するフェデレートラーニングに基づくアプローチを提案する。このアプローチでは、MLモデルを複数のクライアントのデータで協調的にトレーニングできるが、データのプライバシを尊重するためのデータへの明示的なアクセスは行わない。包括的データセットの実験により、協調トレーニングは個々のローカルモデルと比較して精度を11%向上することが示された。
論文参考訳（メタデータ） (2022-03-30T02:35:40Z)
Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。 2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文参考訳（メタデータ） (2021-12-15T02:41:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。