論文の概要: Data Requirement Goal Modeling for Machine Learning Systems
- arxiv url: http://arxiv.org/abs/2504.07664v1
- Date: Thu, 10 Apr 2025 11:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:27.474202
- Title: Data Requirement Goal Modeling for Machine Learning Systems
- Title(参考訳): 機械学習システムのためのデータ要求目標モデリング
- Authors: Asma Yamani, Nadeen AlAmoudi, Salma Albilali, Malak Baslyman, Jameleddine Hassine,
- Abstract要約: 本研究は,機械学習システムにおけるデータ要件の特定において,非専門家を導くアプローチを提案する。
我々はまず,白書を調査し,データ要求目標モデル(DRGM)を開発した。
次に、実世界のプロジェクトに基づいた2つの実証的な例を通して、このアプローチを検証する。
- 参考スコア(独自算出の注目度): 0.8854624631197942
- License:
- Abstract: Machine Learning (ML) has been integrated into various software and systems. Two main components are essential for training an ML model: the training data and the ML algorithm. Given the critical role of data in ML system development, it has become increasingly important to assess the quality of data attributes and ensure that the data meets specific requirements before its utilization. This work proposes an approach to guide non-experts in identifying data requirements for ML systems using goal modeling. In this approach, we first develop the Data Requirement Goal Model (DRGM) by surveying the white literature to identify and categorize the issues and challenges faced by data scientists and requirement engineers working on ML-related projects. An initial DRGM was built to accommodate common tasks that would generalize across projects. Then, based on insights from both white and gray literature, a customization mechanism is built to help adjust the tasks, KPIs, and goals' importance of different elements within the DRGM. The generated model can aid its users in evaluating different datasets using GRL evaluation strategies. We then validate the approach through two illustrative examples based on real-world projects. The results from the illustrative examples demonstrate that the data requirements identified by the proposed approach align with the requirements of real-world projects, demonstrating the practicality and effectiveness of the proposed framework. The proposed dataset selection customization mechanism and the proposed DRGM are helpful in guiding non-experts in identifying the data requirements for machine learning systems tailored to a specific ML problem. This approach also aids in evaluating different dataset alternatives to choose the optimum dataset for the problem. For future work, we recommend implementing tool support to generate the DRGM based on a chatbot interface.
- Abstract(参考訳): 機械学習(ML)は様々なソフトウェアやシステムに統合されている。
MLモデルのトレーニングには,トレーニングデータとMLアルゴリズムという,2つの主要コンポーネントが不可欠だ。
MLシステム開発におけるデータの重要性を考えると、データ属性の品質を評価し、データの利用前に特定の要件を満たすようにすることがますます重要になっている。
本研究は、ゴールモデリングを用いたMLシステムのデータ要求の特定において、非専門家を導くアプローチを提案する。
このアプローチでは、まず、データサイエンティストやML関連のプロジェクトに取り組んでいる要件エンジニアが直面している問題や課題を特定し分類するために、白書を調査し、データ要求目標モデル(DRGM)を開発する。
最初のDRGMは、プロジェクト全体にわたって一般化される共通のタスクに対応するために作られた。
そして、白とグレーの両方の文献からの洞察に基づいて、タスク、KPI、DRGM内の異なる要素の目標の重要性を調整するためのカスタマイズメカニズムを構築します。
生成されたモデルは、GRL評価戦略を使用して、ユーザが異なるデータセットを評価するのに役立つ。
次に、実世界のプロジェクトに基づいた2つの実証的な例を通して、このアプローチを検証する。
実証実験の結果,提案手法によって同定されたデータ要件は実世界のプロジェクト要件と一致し,提案フレームワークの実用性と有効性を示す。
提案するデータセット選択カスタマイズ機構とDRGMは,機械学習システムにおいて,特定のML問題に適したデータ要件を特定するための非専門家の指導に有用である。
このアプローチはまた、問題に対する最適なデータセットを選択するために、さまざまなデータセット代替品を評価するのに役立つ。
今後の課題として,チャットボットインタフェースに基づいてDRGMを生成するためのツールサポートの実装を推奨する。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Data-centric Operational Design Domain Characterization for Machine
Learning-based Aeronautical Products [4.8461049669050915]
機械学習(ML)に基づく航空製品のための操作設計ドメイン(ODD)の厳密な特徴付けを初めて与える。
我々は,ODDを定義するパラメータを明示的にキャプチャできる次元と,MLベースのアプリケーションが操作中に遭遇する可能性のあるデータの分類を提案する。
論文 参考訳(メタデータ) (2023-07-15T02:08:33Z) - Optimizing the AI Development Process by Providing the Best Support
Environment [0.756282840161499]
機械学習の主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。
このフレームワークは、ディープラーニングの進歩を使ってデータ拡張を実行するために、python言語を使用して構築された。
論文 参考訳(メタデータ) (2023-04-29T00:44:50Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z) - Improving the Performance of Fine-Grain Image Classifiers via Generative
Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。
DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。
本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文 参考訳(メタデータ) (2020-08-12T15:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。